DeepSeek 是一家专注于人工智能基础技术研究的创新型科技公司,在大语言模型和相关技术领域取得了显著成就,以下是关于它的详细介绍:
公司概况:
- 成立背景:2023 年,幻方量化宣布全力投身人工智能技术,成立独立研究公司深度求索。2023 年 7 月 17 日,DeepSeek 在杭州市拱墅区成立,法定代表人系裴湉。
- 核心业务:专注于开发先进的大语言模型(LLM)和相关技术,致力于推动人工智能技术的发展和应用。
发展历程:
- 模型发布:2024 年 1 月 5 日发布首个大模型 DeepSeek LLM。2024 年 5 月开源第二代 MoE 大模型 DeepSeek – V2。2024 年 12 月 26 日,DeepSeek – V3 首个版本上线并开源。2025 年 1 月 20 日,正式发布 DeepSeek – R1 模型,该模型在性能上比肩 OpenAI o1 正式版。
- 应用推广:2025 年 1 月 11 日,DeepSeek 官方 App 上线 iOS 与安卓应用市场。2 月,DeepSeek – R1、V3、Coder 等系列模型上线国家超算互联网平台。截至 2 月 2 日,DeepSeek 应用在 140 个国家的苹果 App Store 下载排行榜及美国的 Android Play Store 中均占据榜首位置。
技术优势:
- 性能卓越:DeepSeek – R1 模型在数学推理任务中准确率高达 97.3%,超越了 GPT – 4 等顶尖模型,在逻辑推理、阅读理解、战略规划等任务中表现出色,在 AIME 和 MATH – 500 等基准测试中展现出卓越的推理能力和更快的响应速度。
- 成本低廉:通过强化学习和模型蒸馏等技术,将大模型的参数规模缩减至传统模型的 1/10。采用 MoE 架构和 GRPO 算法,算力消耗降低 30% 以上。推理成本降至每百万 token 仅 1 元,仅为 GPT – 4 Turbo 的 1/70。
- 创新架构:采用混合专家(MoE)架构等先进架构和技术,同时利用强化学习技术,让模型在保持高性能的同时,降低了对硬件资源的需求。
模型特点:
- DeepSeek – R1:推理模型,擅长逻辑推理和复杂问题解决,在数学、代码、自然语言推理等任务上表现出色,性能比肩 OpenAI o1。
- DeepSeek – V3:多用途聊天机器人助手,能以自然语言回答用户问题,可用于写作、编辑、编码、数据分析等任务。
- Janus Pro:多模态 AI 模型,专注于图像生成和视觉分析,有 1b 和 7b 参数版本,可生成高质量图像并对真实照片进行详细讨论。
应用场景:
- 政务领域:深圳、广州等多地将 DeepSeek 应用于政务系统,实现人工智能政务应用一体化赋能升级。
- 汽车领域:吉利汽车、岚图汽车、比亚迪等车企将 DeepSeek 模型融入智舱端或 AI 运营领域。
- 通信领域:中国电信、中国联通、中国移动三大运营商全面接入 DeepSeek。
- 其他领域:包括阿里云、腾讯云等在内的超过 70 家 AI 算力、AI 服务、AI 应用领域公司接入或适配 DeepSeek 模型产品。智联招聘、QQ 音乐、高途教育等平台企业也分别接入 DeepSeek 人工智能大模型。
数据统计
相关导航
暂无评论...