DeepSeek의 새로운 챗봇은 인상적인 소개를 자랑합니다. "안녕하세요, 나는 당신이 무엇이든 물어보고 당신을 놀라게 할 수있는 답을 얻을 수 있도록 만들어졌습니다." 중국 스타트 업 Deepseek의 제품인이 AI는 빠르게 주요 선수가되어 Nvidia의 주가가 크게 하락하기까지했습니다. 성공은 건축 혁신과 훈련 방법론의 독특한 조합에서 비롯됩니다.
DeepSeek의 모델은 몇 가지 주요 기술 발전을 통해 자신을 구별합니다.
- MTP (Multi-Token Prediction) : 전통적인 단어 별 예측과 달리 MTP는 여러 단어를 동시에 예측하여 정확도와 효율성을 모두 향상시킵니다.
- 전문가 (MOE)의 혼합 : 이 아키텍처는 여러 신경망을 활용하여 데이터를 처리하고 교육을 가속화하고 전반적인 성능을 향상시킵니다. DeepSeek V3는 256 개의 신경망을 사용하여 각 토큰 처리 작업마다 8 개를 활성화합니다.
- 다중 헤드 잠재주의 (MLA) : 이 메커니즘은 가장 중요한 문장 요소에 중점을 두어 주요 세부 사항을 반복적으로 추출하여 정보 손실을 최소화하고 입력 데이터에 대한 미묘한 이해를 보장합니다.
이미지 : ensigame.com
DeepSeek은 처음에는 2048 GPU 만 사용하여 강력한 Deepseek V3 모델의 경우 6 백만 달러의 매우 낮은 교육 비용을 주장했습니다. 그러나 Semianalysis는 10,000 H800, 10,000 H100 및 추가 H20 장치를 포함하여 약 50,000 NVIDIA HOPPER GPU가 여러 데이터 센터에 퍼져 있다는 훨씬 더 광범위한 인프라를 나타 냈습니다. 이는 약 16 억 달러의 총 서버 투자를 나타내며 운영 비용은 9 억 9,400 만 달러로 추정됩니다.
이미지 : ensigame.com
중국 헤지 펀드 하이 플라이어의 자회사 인 DeepSeek는 데이터 센터를 소유하고있어 모델 최적화와 더 빠른 혁신 구현에 대한 비교할 수없는 제어를 제공합니다. 자체 자금 지원 자연은 민첩성과 의사 결정을 향상시킵니다. 이 회사는 또한 최고의 인재를 유치하며 일부 연구자들은 매년 130 만 달러 이상을 벌어 주로 중국 대학에서 모집합니다.
이미지 : ensigame.com
DeepSeek의 초기 6 백만 달러의 교육 비용 청구는 오해의 소지가있는 것으로 보이지만 (연구, 정제, 데이터 처리 및 인프라를 제외하고 사전 훈련 만 포함) AI 개발에 5 억 달러 이상을 투자했습니다. 린 구조는 더 크고 관료적 인 기업에 비해 효율적인 혁신을 허용합니다.
이미지 : ensigame.com
Deepseek의 이야기는 산업 거대 기업과 경쟁 할 수있는 잘 자금을 지원하고 독립적 인 AI 회사의 잠재력을 강조합니다. 그러나 그 성공은 실질적인 투자, 기술 혁신 및 강력한 팀과 의심 할 여지없이 관련이 있습니다. 혁신적인 예산 효율성에 대한 주장은 틀림없이 과장되지만 회사의 비용은 경쟁 업체보다 훨씬 저렴합니다. 예를 들어, DeepSeek은 R1에 5 백만 달러를 소비 한 반면 ChatGpt4는 1 억 달러가 들었습니다. 그러나 경쟁사보다 여전히 저렴합니다.