DeepSeek开源 · Apache 2.0

DeepSeek V4 — 重新定义智能

DeepSeek V4 是一个混合专家(MoE)大语言模型,拥有 1 万亿总参数,每个 token 激活 1280 亿参数。在推理、编程、数学和多语言任务上达到最先进水平,同时保持卓越的训练效率。

1T
总参数量
128B
激活参数量
256K
上下文窗口
#1
开源大模型

什么是 DeepSeek V4

DeepSeek V4 在 DeepSeek V3 的突破基础上,大幅扩展了架构规模,改进了训练方法,增强了推理能力。它代表了开源大语言模型的新前沿。

架构 创新

DeepSeek V4 引入了多项架构创新,推动了高效大规模模型训练和推理的边界。

🧠

多头潜在注意力(MLA)

一种先进的注意力机制,将键值对压缩到低维潜在空间,在推理时大幅减少 KV 缓存内存,同时保持完整的注意力表达能力。

DeepSeekMoE 架构

细粒度混合专家设计,每层包含 256 个路由专家和 2 个共享专家。每个 token 仅激活 1T 总参数中的 128B,以高效计算实现强大性能。

🎯

多 Token 预测(MTP)

训练时同时预测多个未来 token,提高数据效率,并在推理时启用推测解码,生成速度提升最高 2 倍。

🔬

FP8 混合精度训练

开创性地在前向和反向传播中使用 FP8 浮点格式,减少内存占用并加速训练,同时不牺牲模型质量。

核心 能力

DeepSeek V4 在从复杂推理到创意生成的广泛任务中表现卓越。

💡

高级推理

在数学推理(MATH、GSM8K)、逻辑推演和多步问题求解上达到最先进水平,与领先的闭源模型竞争。

💻

代码生成

在 HumanEval、MBPP 和 LiveCodeBench 上表现顶尖。支持 50+ 编程语言,具备强大的调试和代码审查能力。

🌍

多语言精通

英语、中文、日语、韩语、法语、德语、西班牙语达到母语级流利度,并在 100+ 其他语言上具备强大的跨语言迁移能力。

📄

长上下文理解

256K token 上下文窗口,检索准确率接近完美。可处理完整代码库、长文档和复杂的多轮对话。

🎯

指令遵循

精确遵循复杂的多约束指令。在结构化输出、角色扮演和细腻的创意写作任务中表现出色。

🔧

工具与函数调用

强大的函数调用和工具使用能力。无缝集成 API、数据库和外部服务,支持智能体工作流。

基准 测试

DeepSeek V4 在主要基准测试中取得顶尖成绩,以极低成本媲美或超越闭源模型。

模型MATH-500GSM8KGPQA Diamond
DeepSeek V492.897.165.4
GPT-4o76.695.853.6
Claude 3.5 Sonnet78.396.459.4
Llama 3.1 405B73.896.851.1

训练 效率

DeepSeek V4 以卓越的成本效率完成训练,证明前沿级 AI 不需要前沿级预算。

📊

14.8T 训练 Token

在 14.8 万亿高质量 token 上训练,涵盖网页数据、代码、学术论文、书籍和精选多语言语料库。

💰

高效训练

在 2048 块 NVIDIA H800 GPU 集群上约 60 天完成全部训练——成本仅为同类闭源模型的一小部分。

⚖️

无辅助损失负载均衡

一种新颖的 MoE 负载均衡策略,避免辅助损失,在保持专家均匀利用的同时防止性能下降。

🔄

多阶段流水线

预训练 → 监督微调 → 基于人类反馈的强化学习(RLHF),采用群组相对策略优化(GRPO)。

开放 开源

DeepSeek V4 在 Apache 2.0 许可证下完全开源,赋能全球 AI 社区。

完整模型权重

基础模型和对话优化版本的完整模型权重均已发布。商业使用无限制。

训练透明度

详细的技术报告,涵盖架构决策、训练方法、数据组成和消融实验。

社区生态

兼容 vLLM、SGLang、TensorRT-LLM 等主流推理框架。活跃社区拥有数千个微调变体。

应用 场景

💻

AI 驱动开发

跨 50+ 编程语言的代码生成、调试、代码审查和自动化测试,提供上下文感知建议。

🔬

研究与分析

利用 256K 上下文处理和综合长文档、学术论文和复杂数据集的信息。

🏢

企业应用

构建智能代理、客服机器人和工作流自动化,具备强大的函数调用和工具集成能力。

🎓

教育与辅导

逐步数学推理、多语言辅导和自适应学习体验,由高级推理能力驱动。

常见 问题

DeepSeek V4 是由 DeepSeek 开发的 1 万亿参数混合专家大语言模型。每个 token 激活 1280 亿参数,在推理、编程、数学和多语言基准测试中达到最先进水平,并在 Apache 2.0 许可证下完全开源。

DeepSeek V4 在大多数基准测试中与 GPT-4o 和 Claude 3.5 Sonnet 表现相当或更优,尤其在数学推理和代码生成方面表现突出。它是目前最强大的开源模型。

完整模型需要多块高端 GPU(8× A100/H100 80GB 或更多)进行推理。量化版本(INT4/INT8)可在较小配置上运行。也可通过云 API 访问。

是的。模型权重在 Apache 2.0 许可证下发布,商业使用无限制。DeepSeek 还提供价格极具竞争力的 API 服务。

DeepSeek V4 支持 256K token 上下文窗口,能够处理完整代码库、长文档和扩展对话,检索准确率接近完美。

DeepSeek V4 在英语和中文上达到母语级流利度,在日语、韩语、法语、德语和西班牙语上表现强劲,并在 100+ 其他语言上具备功能性能力。

体验 DeepSeek V4

探索最强大的开源大语言模型。阅读技术报告或试用 API。