DeepSeek開源 · Apache 2.0

DeepSeek V4 — 重新定義智能

DeepSeek V4 是一個混合專家(MoE)大語言模型,擁有 1 兆總參數,每個 token 啟動 1280 億參數。在推理、程式設計、數學和多語言任務上達到最先進水準,同時保持卓越的訓練效率。

1T
總參數量
128B
啟動參數量
256K
上下文視窗
#1
開源大模型

什麼是 DeepSeek V4

DeepSeek V4 在 DeepSeek V3 的突破基礎上,大幅擴展了架構規模,改進了訓練方法,增強了推理能力。它代表了開源大語言模型的新前沿。

架構 創新

DeepSeek V4 引入了多項架構創新,推動了高效大規模模型訓練和推理的邊界。

🧠

多頭潛在注意力(MLA)

一種先進的注意力機制,將鍵值對壓縮到低維潛在空間,在推理時大幅減少 KV 快取記憶體,同時保持完整的注意力表達能力。

DeepSeekMoE 架構

細粒度混合專家設計,每層包含 256 個路由專家和 2 個共享專家。每個 token 僅啟動 1T 總參數中的 128B,以高效計算實現強大效能。

🎯

多 Token 預測(MTP)

訓練時同時預測多個未來 token,提高資料效率,並在推理時啟用推測解碼,生成速度提升最高 2 倍。

🔬

FP8 混合精度訓練

開創性地在前向和反向傳播中使用 FP8 浮點格式,減少記憶體佔用並加速訓練,同時不犧牲模型品質。

核心 能力

DeepSeek V4 在從複雜推理到創意生成的廣泛任務中表現卓越。

💡

高級推理

在數學推理(MATH、GSM8K)、邏輯推演和多步問題求解上達到最先進水準,與領先的閉源模型競爭。

💻

程式碼生成

在 HumanEval、MBPP 和 LiveCodeBench 上表現頂尖。支援 50+ 程式語言,具備強大的除錯和程式碼審查能力。

🌍

多語言精通

英語、中文、日語、韓語、法語、德語、西班牙語達到母語級流利度,並在 100+ 其他語言上具備強大的跨語言遷移能力。

📄

長上下文理解

256K token 上下文視窗,檢索準確率接近完美。可處理完整程式碼庫、長文件和複雜的多輪對話。

🎯

指令遵循

精確遵循複雜的多約束指令。在結構化輸出、角色扮演和細膩的創意寫作任務中表現出色。

🔧

工具與函式呼叫

強大的函式呼叫和工具使用能力。無縫整合 API、資料庫和外部服務,支援智慧代理工作流。

基準 測試

DeepSeek V4 在主要基準測試中取得頂尖成績,以極低成本媲美或超越閉源模型。

模型MATH-500GSM8KGPQA Diamond
DeepSeek V492.897.165.4
GPT-4o76.695.853.6
Claude 3.5 Sonnet78.396.459.4
Llama 3.1 405B73.896.851.1

訓練 效率

DeepSeek V4 以卓越的成本效率完成訓練,證明前沿級 AI 不需要前沿級預算。

📊

14.8T 訓練 Token

在 14.8 兆高品質 token 上訓練,涵蓋網頁資料、程式碼、學術論文、書籍和精選多語言語料庫。

💰

高效訓練

在 2048 塊 NVIDIA H800 GPU 叢集上約 60 天完成全部訓練——成本僅為同類閉源模型的一小部分。

⚖️

無輔助損失負載均衡

一種新穎的 MoE 負載均衡策略,避免輔助損失,在保持專家均勻利用的同時防止效能下降。

🔄

多階段流水線

預訓練 → 監督微調 → 基於人類回饋的強化學習(RLHF),採用群組相對策略最佳化(GRPO)。

開放 開源

DeepSeek V4 在 Apache 2.0 授權條款下完全開源,賦能全球 AI 社群。

完整模型權重

基礎模型和對話最佳化版本的完整模型權重均已發布。商業使用無限制。

訓練透明度

詳細的技術報告,涵蓋架構決策、訓練方法、資料組成和消融實驗。

社群生態

相容 vLLM、SGLang、TensorRT-LLM 等主流推理框架。活躍社群擁有數千個微調變體。

應用 場景

💻

AI 驅動開發

跨 50+ 程式語言的程式碼生成、除錯、程式碼審查和自動化測試,提供上下文感知建議。

🔬

研究與分析

利用 256K 上下文處理和綜合長文件、學術論文和複雜資料集的資訊。

🏢

企業應用

建構智慧代理、客服機器人和工作流自動化,具備強大的函式呼叫和工具整合能力。

🎓

教育與輔導

逐步數學推理、多語言輔導和自適應學習體驗,由高級推理能力驅動。

常見 問題

DeepSeek V4 是由 DeepSeek 開發的 1 兆參數混合專家大語言模型。每個 token 啟動 1280 億參數,在推理、程式設計、數學和多語言基準測試中達到最先進水準,並在 Apache 2.0 授權條款下完全開源。

DeepSeek V4 在大多數基準測試中與 GPT-4o 和 Claude 3.5 Sonnet 表現相當或更優,尤其在數學推理和程式碼生成方面表現突出。它是目前最強大的開源模型。

完整模型需要多塊高階 GPU(8× A100/H100 80GB 或更多)進行推理。量化版本(INT4/INT8)可在較小配置上執行。也可透過雲端 API 存取。

是的。模型權重在 Apache 2.0 授權條款下發布,商業使用無限制。DeepSeek 還提供價格極具競爭力的 API 服務。

DeepSeek V4 支援 256K token 上下文視窗,能夠處理完整程式碼庫、長文件和延伸對話,檢索準確率接近完美。

DeepSeek V4 在英語和中文上達到母語級流利度,在日語、韓語、法語、德語和西班牙語上表現強勁,並在 100+ 其他語言上具備功能性能力。

體驗 DeepSeek V4

探索最強大的開源大語言模型。閱讀技術報告或試用 API。