2024 년 12 월, 항저우에 본사를 둔 AI Company Deepseek은 V3 모델을 발표하여 토론의 폭풍을 일으켰습니다. 그 결과는“중국의 AI 충격”이라고 불 렸습니다.
낮은 비용으로 GPT-4 및 Claude 3과 같은 미국 대응 자체에 대한 DeepSeek-V3의 비슷한 성능은 미국의 현재 수출 통제 정책을 목표로하는 AI 기능에 대한 미국의 지배에 대한 의심을 불러 일으킨다. 또한 컴퓨팅 전력에 대한 과도한 하드웨어 투자를 우선시하는 확고한 산업 패러다임에 의문을 제기했습니다. 도널드 트럼프 미국 대통령의 발언에 반향하기 위해 Deepseek의 출현은 단순한 것이 아닙니다. “모닝콜” 기술 산업뿐만 아니라 미국과 동맹국이 기술 정책 전략을 재평가하기위한 비판적 시점도 있습니다.
그러면 Deepseek은 무엇을 방해 했습니까? DeepSeek가 V3 모델에 대해 주장한 비용 효율성은 인상적입니다. 총 교육 비용은 5 억 5,760 만 달러에 불과하며, 이는 GPT-4 비용의 5.5 %에 불과하며, 이는 1 억 달러입니다. 훈련이 완료되었습니다 2,048 NVIDIA GPU 사용일반적으로 미국 회사보다 8 배 더 큰 자원 효율성을 달성합니다. 16,000 GPU가 필요합니다. 이것은 우수한 H100 대신 덜 고급 H800 GPU를 사용하여 달성되었지만 DeepSeek은 비슷한 성능을 제공했습니다.
따라서 DeepSeek의 저비용 모델은 대형 모델의 정교함이 대규모 컴퓨팅 전력 축적과 동일하다는 기존의 지혜에 도전합니다. 이 개발은 반도체 금수 조치 가운데 미국 AI 칩에 대한 의존성을 잠재적으로 중단시켜 고급 컴퓨팅 전력 제어를 중심으로 한 전통적인 정책에 대한 의문을 제기 할 수 있습니다.
불분명 한 비용
그러나 DeepSeek-V3 모델을 둘러싼 논의에는 추가 설명이 필요합니다. V3 모델은 GPT-4와 동등한 반면 2025 년 1 월에 출시 된 R1 모델은 OpenAI의 고급 모델 O1에 해당합니다. 보고 된 비용은 5 억 5,76 백만 달러의 비용은 특히 R1 모델이 아닌 DeepSeek-V3과 관련이 있습니다. 이 수치에는 건축 개발, 데이터 및 사전 연구와 관련된 비용을 배제하기 때문에이 수치에는 총 교육 비용이 포함되지 않습니다.
V3 모델은 공식 릴리스 전에 R1 모델의 내부 버전에서 생성 된 데이터 세트를 사용하여 교육을 받았습니다. 이 접근법은 R1 생성 추론 데이터의 높은 정확도를 활용하는 것을 목표로했습니다.정기적으로 형식의 데이터의 명확성 및 간결함과 결합합니다. 그러나 이러한 관련 비용에 대한 문서는 특히 공개되지 않은 채 남아 있지만, 특히 R1의 데이터 및 아키텍처 개발 비용이 V3의 전체 비용에 어떻게 통합되는지에 대한 공개되지 않은 채 남아 있습니다.
혼란이 아닌 점진적인 혁신
기술 경쟁의 관점에서 볼 때, MLA (Multi-Head Prenatent Interetion) 및 MOE (Mix-of-Experts)와 같은 기초 LLM 기술에서 Deepseek의 발전은 효율성 향상을 보여줍니다. 그러나 이러한 기술은 비밀이 엄격하게 보호되지 않기 때문에 이러한 발전은 정책 입안자들 사이에 과도한 우려를 유발해서는 안됩니다.
즉, Deepseek의 업적을 둘러싼 현재의 흥분 뒤에는 진정한 혁신이 있습니다. MLA 기술은 키 및 가치 행렬의 저급 압축을 사용하여 전통적인주의 메커니즘을 향상시킵니다. 이로 인해 키 값 (KV) 캐시 크기가 크게 줄어 듭니다. 표준 다중 헤드주의 (MHA) 구조에 비해 메모리 사용량이 6.3 배 감소합니다.이에 따라 훈련 및 추론 비용을 모두 낮추는 것입니다. DeepSeek은 또한 대규모 스파 스 스파 스 모델을 성공적으로 배포 한 최초의 회사 인 것으로 보이며 전문가 균형 기술을 통해 모델 효율성을 높이고 커뮤니케이션 비용을 줄이는 능력을 보여줍니다.
이러한 발전은 드문 일이지만 기술력의 전반적인 균형을 바꿀 수있는 파괴적인 도약이 아니라 AI 분야의 반복적 인 향상을 나타낼 수 있습니다.
실제로, DeepSeek-V3 나 R1 모델은 최첨단 기술의 정점을 나타내지 않습니다. 그들의 장점은 미국과 비교할 수있는 성능을 제공하지만 비용이 크게 낮아지는 것입니다. 이와 관련하여, 미국 기술 산업이 채택한 겉보기에 화려한 개발 접근법의 비용 효율성에 대해 AI 모델의 정교함과 깎아 지른다.
그러나 이러한 유형의 비용 효율적인 혁신은 종종 풍부하고 고급 리소스를 갖춘 기술 최전선에있는 사람들의 초점이 아닙니다. 모든 혁신의 초기 반복은 일반적으로 높은 비용이 발생합니다. 그러나 비용 절감 혁신이 등장함에 따라 비용을 절감하여 경비를 감소시켜, 특히 중국과 같은 지역에서 후발병이 이러한 발전을 신속하게 채택하고 비용 절감으로 리더를 따라 잡을 수 있습니다.
미국 칩 제재의 한계
훈련 비용 감소를 통해 후방의 이점을 보여주는 Deepseek의 접근 방식은 AI 모델의 광범위한 컴퓨팅 능력에 대한 실제 요구에 대한 논쟁을 불러 일으켰습니다. 비평가들은 중국이 실제로 미국 고급 칩에 의존 해야하는지 의문워싱턴의 현재 반도체 수출 제어 체계를 안내하는 고급 컴퓨팅 중심 정책에 도전합니다. 낮은 칩으로 성능 패리티를 달성 할 수 있다면 더 높은 칩의 프리미엄은 정당화되지 않을 수 있습니다.
그러나 더 높은 칩이 일반적으로 더 큰 효율성을 제공하기 때문에 이것은 오해 일 수 있습니다. 경제적 인 관점에서 비현실적 일 것입니다 DeepSeek과 같은 중국에 기반을 둔 모든 회사의 경우 더 고급 칩이 접근 할 수있는 경우 더 많은 고급 칩을 사용하지 않습니다.
또한, 교육 비용 감소 잠재적 인 사용자 수수료 감소는 AI 서비스 채택에 대한 재정적 장벽의 감소를 신호합니다. 글로벌 AI 산업은 서비스 간의 경쟁이 강화됨에 따라 컴퓨팅 전력에 대한 수요가 감소하기보다는 증가 할 것으로 보인다. 중국이 AI 경주를 유지하려면보다 정교한 고급 칩을 지속적으로 공급해야합니다.
이와 관련하여 스케일링 법은 여전히 사실입니다. DeepSeek은 수학적 용어로 자본 투자가 적음으로써 비슷한 결과를 얻을 수 있음을 보여주었습니다. 하드웨어 전면에서, 이는 자원이 적은보다 효율적인 성능으로 해석되며, 이는 전체 AI 산업에 유리합니다. 그리고 DeepSeek의 비용 효율성 중단이 가능한 것으로 판명되면 미국 AI 회사가 적응하고 보조를 유지할 수없는 이유는 없습니다.
중국의 AI 가격 책정 경주 수출
그렇다면 미국과 동맹국들은 진정으로 무엇에 대해 걱정해야합니까? 주요 질문은 다음과 같습니다. 중국 AI 서비스가 저렴한 가격으로 미국인과 비교할 수있는 성능을 제공 할 수 있다면 어떨까요? DeepSeek는 정책 입안자들이 면밀히 모니터링 해야하는 개발 시나리오를 보여줍니다. 중국은 이미 국내에서 진행된 전투 인 AI 서비스에서 전 세계 가격 전쟁을 시작하고 있습니다.
DeepSeek-V3 및 R1 모델의 실제 교육 비용은 불분명합니다. 그리고 대중은 하위 계층 H800 GPU 만 사용하여 그러한 효율성을 달성하는지에 대해 거의 알지 못합니다. 이러한 주장의 실용성은 아직 결정되지 않았습니다. 그러나 비용을 가격과 혼동하지 않는 것이 중요합니다. DeepSeek의 정확한 지출은 확실하지 않으며 명확하지 않습니다. 회사가 미국 모델을 사용하여 서비스 약관을 위반할 수있는 방식으로 자체 교육을했는지 여부. 우리가 아는 한 가지는 DeepSeek이 AI 서비스를 매우 저렴한 가격으로 제공하고 있다는 것입니다.
예를 들어, DeepSeek-R1은 단지 요금을 청구합니다 백만 달러당 $ 0.14 입력 토큰 (캐시 된 데이터를 사용할 때)과 백만 달러 당 $ 2.19, 출력 토큰 당 $ 2.19. 대조적으로, OpenAi의 O1 모델 백만 달러당 $ 1.25, 캐시 된 입력 토큰과 백만 달러당 $ 10.00의 출력 토큰.. 이는 DeepSeek-R1이 입력 토큰의 경우 거의 9 배 저렴하고 OpenAI의 O1에 비해 출력 토큰의 경우 약 4.5 배 저렴합니다.
Deepseek의 경쟁력있는 가격은 어떤 의미에서, 중국의 2024 년 국내 AI 서비스 가격 전쟁에 대한 국제적 투영으로 볼 수 있습니다. 예를 들어, 알리바바 Qwen-Long의 가격을 97 % 하락했습니다 나n 작년 5 월 시각적 언어 모델 Qwen-VL의 비용을 더욱 줄였습니다.12 월 85 %. 그러나 DeepSeek과는 달리 많은 중국 AI 회사는 모델이 경쟁력이 부족하여 미국에 대응하기가 어렵 기 때문에 가격을 낮추었습니다. 이러한 가격 인하에도 불구하고 고품질 고객을 유치하는 것은 여전히 어려운 일입니다. 반대로 DeepSeek은 경쟁 제품과 비슷한 성능을 제공하여 가격 책정이 진정으로 매력적입니다.
민주주의 동맹국의 경우, 저렴하고 매우 효과적인 중국 AI 서비스의 상승은 특히 최근 주권 AI 이니셔티브에 비추어 두 가지 주요 전략적 문제를 제기합니다. 첫째, 특히 데이터 프라이버시 및 결과의 잠재적 조작. 둘째, AI 서비스에 대한 중국의 공격적인 가격은 다른 국가의 AI 산업 개발에 위협이되어 이전에 관찰 된 덤핑 관행과 비슷합니다. 태양 전지판 그리고 전기 자동차 유럽과 미국에서.
이 시나리오가 전개되면, 중국의 AI 가격 이점은 다른 회사가 곧 채택 할 수있는 교육 비용 감소에 의해서만 유도 될 가능성이 없다는 것을 인식해야합니다. 정부 보조금과 같은 비 시장 메커니즘에도주의를 기울여야하며, 이는 중국에 향후 경쟁 우위를 제공 할 수 있습니다.