DeepSeek오픈소스 · Apache 2.0

DeepSeek V4 — 지능을 재정의하다

DeepSeek V4는 총 1조 개의 파라미터와 토큰당 1,280억 개의 활성화 파라미터를 가진 Mixture-of-Experts(MoE) 대규모 언어 모델입니다. 추론, 코딩, 수학, 다국어 작업에서 최첨단 성능을 달성하면서 뛰어난 훈련 효율성을 유지합니다.

1T
총 파라미터
128B
활성화 파라미터
256K
컨텍스트 윈도우
#1
오픈소스 LLM

DeepSeek V4란?

DeepSeek V4는 DeepSeek V3의 혁신을 기반으로 아키텍처를 대폭 확장하고, 훈련 방법론을 개선하며, 추론 능력을 강화했습니다. 오픈소스 대규모 언어 모델의 새로운 프론티어를 대표합니다.

아키텍처 혁신

DeepSeek V4는 효율적인 대규모 모델 훈련과 추론의 한계를 넓히는 여러 아키텍처 혁신을 도입했습니다.

🧠

Multi-Head Latent Attention (MLA)

키-값 쌍을 저차원 잠재 공간으로 압축하는 고급 어텐션 메커니즘. 추론 시 KV 캐시 메모리를 대폭 줄이면서 완전한 어텐션 표현력을 유지합니다.

DeepSeekMoE 아키텍처

레이어당 256개의 라우팅 전문가와 2개의 공유 전문가를 가진 세밀한 MoE 설계. 각 토큰은 1T 총 파라미터 중 128B만 활성화하여 효율적인 연산으로 강력한 성능을 달성합니다.

🎯

멀티 토큰 예측 (MTP)

훈련 시 여러 미래 토큰을 동시에 예측하여 데이터 효율성을 향상시키고, 추론 시 추측 디코딩을 통해 최대 2배 빠른 생성을 가능하게 합니다.

🔬

FP8 혼합 정밀도 훈련

순전파와 역전파 모두에서 FP8 부동소수점 형식을 선구적으로 사용. 모델 품질을 희생하지 않으면서 메모리 사용량을 줄이고 훈련을 가속화합니다.

핵심 기능

DeepSeek V4는 복잡한 추론부터 창의적 생성까지 광범위한 작업에서 탁월한 성능을 발휘합니다.

💡

고급 추론

수학적 추론(MATH, GSM8K), 논리적 추론, 다단계 문제 해결에서 최첨단 성능. 주요 독점 모델과 경쟁합니다.

💻

코드 생성

HumanEval, MBPP, LiveCodeBench에서 최상위 코딩 능력. 50개 이상의 프로그래밍 언어를 지원하며 강력한 디버깅 및 코드 리뷰 기능을 갖추고 있습니다.

🌍

다국어 마스터리

영어, 중국어, 일본어, 한국어, 프랑스어, 독일어, 스페인어에서 원어민 수준의 유창함. 100개 이상의 추가 언어에서 강력한 교차 언어 전이를 실현.

📄

긴 컨텍스트 이해

256K 토큰 컨텍스트 윈도우로 거의 완벽한 검색 정확도. 전체 코드베이스, 긴 문서, 복잡한 다중 턴 대화를 처리할 수 있습니다.

🎯

지시 따르기

복잡한 다중 제약 지시를 정확하게 따릅니다. 구조화된 출력, 역할극, 섬세한 창작 글쓰기 작업에 뛰어납니다.

🔧

도구 & 함수 호출

강력한 함수 호출 및 도구 사용 기능. API, 데이터베이스, 외부 서비스와 원활하게 통합하여 에이전트 워크플로우를 지원합니다.

벤치마크 성능

DeepSeek V4는 주요 벤치마크에서 최상위 결과를 달성하며, 비용의 일부로 독점 모델에 필적하거나 능가합니다.

모델MATH-500GSM8KGPQA Diamond
DeepSeek V492.897.165.4
GPT-4o76.695.853.6
Claude 3.5 Sonnet78.396.459.4
Llama 3.1 405B73.896.851.1

훈련 효율성

DeepSeek V4는 놀라운 비용 효율성으로 훈련되어, 프론티어급 AI에 프론티어급 예산이 필요하지 않음을 입증했습니다.

📊

14.8T 훈련 토큰

웹 데이터, 코드, 학술 논문, 도서, 엄선된 다국어 코퍼스를 포함한 14.8조 개의 고품질 토큰으로 훈련.

💰

비용 효율적 훈련

2048개의 NVIDIA H800 GPU 클러스터에서 약 60일 만에 전체 훈련 완료 — 동급 독점 모델 비용의 극히 일부.

⚖️

보조 손실 없는 부하 분산

보조 손실을 피하는 새로운 MoE 부하 분산 전략. 전문가의 균등한 활용을 유지하면서 성능 저하를 방지합니다.

🔄

다단계 파이프라인

사전 훈련 → 지도 미세 조정 → 인간 피드백 기반 강화 학습(RLHF), 그룹 상대 정책 최적화(GRPO) 적용.

오픈 소스

DeepSeek V4는 Apache 2.0 라이선스 하에 완전히 오픈소스이며, 글로벌 AI 커뮤니티에 힘을 실어줍니다.

전체 모델 가중치

기본 모델과 채팅 최적화 변형 모두의 전체 모델 가중치를 공개. 상업적 사용에 제한 없음.

훈련 투명성

아키텍처 결정, 훈련 방법론, 데이터 구성, 절제 연구를 다루는 상세한 기술 보고서.

커뮤니티 생태계

vLLM, SGLang, TensorRT-LLM 등 인기 추론 프레임워크와 호환. 수천 개의 미세 조정 변형을 가진 활발한 커뮤니티.

사용 사례

💻

AI 기반 개발

50개 이상의 프로그래밍 언어에서 코드 생성, 디버깅, 코드 리뷰, 자동화 테스트. 컨텍스트 인식 제안을 제공합니다.

🔬

연구 & 분석

256K 컨텍스트로 긴 문서, 학술 논문, 복잡한 데이터셋의 정보를 처리하고 종합합니다.

🏢

엔터프라이즈 애플리케이션

강력한 함수 호출과 도구 통합으로 지능형 에이전트, 고객 서비스 봇, 워크플로우 자동화를 구축합니다.

🎓

교육 & 튜터링

고급 추론 능력으로 구동되는 단계별 수학적 추론, 다국어 튜터링, 적응형 학습 경험.

자주 묻는 질문

DeepSeek V4는 DeepSeek이 개발한 1조 파라미터 Mixture-of-Experts 대규모 언어 모델입니다. 토큰당 1,280억 파라미터를 활성화하며, 추론, 코딩, 수학, 다국어 벤치마크에서 최첨단 성능을 달성합니다. Apache 2.0 하에 완전히 오픈소스입니다.

DeepSeek V4는 대부분의 벤치마크에서 GPT-4o 및 Claude 3.5 Sonnet과 동등하거나 우수한 성능을 달성하며, 특히 수학적 추론과 코드 생성에서 뛰어납니다. 현재 사용 가능한 가장 강력한 오픈소스 모델입니다.

전체 모델 추론에는 여러 하이엔드 GPU(8× A100/H100 80GB 이상)가 필요합니다. 양자화 버전(INT4/INT8)은 더 작은 구성에서 실행 가능합니다. 전용 하드웨어가 없는 경우 클라우드 API 접근도 가능합니다.

네. 모델 가중치는 Apache 2.0 라이선스 하에 공개되어 있으며 상업적 사용에 제한이 없습니다. DeepSeek은 경쟁력 있는 가격의 API 서비스도 제공합니다.

DeepSeek V4는 256K 토큰 컨텍스트 윈도우를 지원하여 전체 코드베이스, 긴 문서, 확장된 대화를 거의 완벽한 검색 정확도로 처리할 수 있습니다.

DeepSeek V4는 영어와 중국어에서 원어민 수준의 유창함을 가지며, 일본어, 한국어, 프랑스어, 독일어, 스페인어에서 강력한 성능을 발휘하고, 100개 이상의 추가 언어에서 기능적 능력을 갖추고 있습니다.

체험하기 DeepSeek V4

가장 강력한 오픈소스 언어 모델을 탐색하세요. 기술 보고서를 읽거나 API를 사용해 보세요.