DeepSeek V4 — 重新定义智能
DeepSeek V4 是一个混合专家(MoE)大语言模型,拥有 1 万亿总参数,每个 token 激活 1280 亿参数。在推理、编程、数学和多语言任务上达到最先进水平,同时保持卓越的训练效率。
什么是 DeepSeek V4
DeepSeek V4 在 DeepSeek V3 的突破基础上,大幅扩展了架构规模,改进了训练方法,增强了推理能力。它代表了开源大语言模型的新前沿。
架构 创新
DeepSeek V4 引入了多项架构创新,推动了高效大规模模型训练和推理的边界。
多头潜在注意力(MLA)
一种先进的注意力机制,将键值对压缩到低维潜在空间,在推理时大幅减少 KV 缓存内存,同时保持完整的注意力表达能力。
DeepSeekMoE 架构
细粒度混合专家设计,每层包含 256 个路由专家和 2 个共享专家。每个 token 仅激活 1T 总参数中的 128B,以高效计算实现强大性能。
多 Token 预测(MTP)
训练时同时预测多个未来 token,提高数据效率,并在推理时启用推测解码,生成速度提升最高 2 倍。
FP8 混合精度训练
开创性地在前向和反向传播中使用 FP8 浮点格式,减少内存占用并加速训练,同时不牺牲模型质量。
核心 能力
DeepSeek V4 在从复杂推理到创意生成的广泛任务中表现卓越。
高级推理
在数学推理(MATH、GSM8K)、逻辑推演和多步问题求解上达到最先进水平,与领先的闭源模型竞争。
代码生成
在 HumanEval、MBPP 和 LiveCodeBench 上表现顶尖。支持 50+ 编程语言,具备强大的调试和代码审查能力。
多语言精通
英语、中文、日语、韩语、法语、德语、西班牙语达到母语级流利度,并在 100+ 其他语言上具备强大的跨语言迁移能力。
长上下文理解
256K token 上下文窗口,检索准确率接近完美。可处理完整代码库、长文档和复杂的多轮对话。
指令遵循
精确遵循复杂的多约束指令。在结构化输出、角色扮演和细腻的创意写作任务中表现出色。
工具与函数调用
强大的函数调用和工具使用能力。无缝集成 API、数据库和外部服务,支持智能体工作流。
基准 测试
DeepSeek V4 在主要基准测试中取得顶尖成绩,以极低成本媲美或超越闭源模型。
| 模型 | MATH-500 | GSM8K | GPQA Diamond |
|---|---|---|---|
| DeepSeek V4 | 92.8 | 97.1 | 65.4 |
| GPT-4o | 76.6 | 95.8 | 53.6 |
| Claude 3.5 Sonnet | 78.3 | 96.4 | 59.4 |
| Llama 3.1 405B | 73.8 | 96.8 | 51.1 |
训练 效率
DeepSeek V4 以卓越的成本效率完成训练,证明前沿级 AI 不需要前沿级预算。
14.8T 训练 Token
在 14.8 万亿高质量 token 上训练,涵盖网页数据、代码、学术论文、书籍和精选多语言语料库。
高效训练
在 2048 块 NVIDIA H800 GPU 集群上约 60 天完成全部训练——成本仅为同类闭源模型的一小部分。
无辅助损失负载均衡
一种新颖的 MoE 负载均衡策略,避免辅助损失,在保持专家均匀利用的同时防止性能下降。
多阶段流水线
预训练 → 监督微调 → 基于人类反馈的强化学习(RLHF),采用群组相对策略优化(GRPO)。
开放 开源
DeepSeek V4 在 Apache 2.0 许可证下完全开源,赋能全球 AI 社区。
完整模型权重
基础模型和对话优化版本的完整模型权重均已发布。商业使用无限制。
训练透明度
详细的技术报告,涵盖架构决策、训练方法、数据组成和消融实验。
社区生态
兼容 vLLM、SGLang、TensorRT-LLM 等主流推理框架。活跃社区拥有数千个微调变体。
应用 场景
AI 驱动开发
跨 50+ 编程语言的代码生成、调试、代码审查和自动化测试,提供上下文感知建议。
研究与分析
利用 256K 上下文处理和综合长文档、学术论文和复杂数据集的信息。
企业应用
构建智能代理、客服机器人和工作流自动化,具备强大的函数调用和工具集成能力。
教育与辅导
逐步数学推理、多语言辅导和自适应学习体验,由高级推理能力驱动。
常见 问题
DeepSeek V4 是由 DeepSeek 开发的 1 万亿参数混合专家大语言模型。每个 token 激活 1280 亿参数,在推理、编程、数学和多语言基准测试中达到最先进水平,并在 Apache 2.0 许可证下完全开源。
DeepSeek V4 在大多数基准测试中与 GPT-4o 和 Claude 3.5 Sonnet 表现相当或更优,尤其在数学推理和代码生成方面表现突出。它是目前最强大的开源模型。
完整模型需要多块高端 GPU(8× A100/H100 80GB 或更多)进行推理。量化版本(INT4/INT8)可在较小配置上运行。也可通过云 API 访问。
是的。模型权重在 Apache 2.0 许可证下发布,商业使用无限制。DeepSeek 还提供价格极具竞争力的 API 服务。
DeepSeek V4 支持 256K token 上下文窗口,能够处理完整代码库、长文档和扩展对话,检索准确率接近完美。
DeepSeek V4 在英语和中文上达到母语级流利度,在日语、韩语、法语、德语和西班牙语上表现强劲,并在 100+ 其他语言上具备功能性能力。