DeepSeek的新聊天機器人擁有令人印象深刻的介紹:“嗨,我被創建了,您可以問任何東西,並得到一個甚至可能讓您感到驚訝的答案。”這種AI是中國初創公司DeepSeek的產物,已迅速成為主要參與者,甚至導致NVIDIA的股價大幅下降。它的成功源於建築創新和培訓方法的獨特結合。
DeepSeek的模型通過幾個關鍵的技術進步來區分自己:
- 多語預測(MTP):與傳統的單詞預測不同,MTP同時預測了多個單詞,從而提高了準確性和效率。
- 專家的混合(MOE):該體系結構利用多個神經網絡來處理數據,加速培訓並改善整體性能。 DeepSeek V3使用256個神經網絡,為每個令牌處理任務激活8個。
- 多頭潛在註意力(MLA):這種機制著重於最關鍵的句子元素,反复提取關鍵細節以最大程度地減少信息丟失並確保對輸入數據的細微理解。
圖片:ensigame.com
DeepSeek最初僅使用2048 GPU,其強大的DeepSeek V3車型的培訓成本僅為600萬美元。但是,半分析顯示出更廣泛的基礎設施:大約50,000個NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20單元,分佈在多個數據中心。這代表了一筆總額約16億美元的服務器投資,運營費用估計為9.44億美元。
圖片:ensigame.com
DeepSeek是中國對沖基金高級基金的子公司,擁有其數據中心,提供了對模型優化和更快創新實施的無與倫比的控制。它的自資助性質增強了敏捷性和決策。該公司還吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要是從中國大學招募的。
圖片:ensigame.com
儘管DeepSeek最初的600萬美元培訓成本索賠似乎具有誤導性(僅涵蓋預培訓,不包括研究,改進,數據處理和基礎設施),但該公司已在AI開發方面投資了超過5億美元。與更大,更官僚的公司相比,其精益結構允許有效的創新。
圖片:ensigame.com
DeepSeek的故事強調了一家資金充足,獨立的AI公司與行業巨頭競爭的潛力。但是,它的成功無疑與大量投資,技術突破和強大的團隊有關。雖然可以說革命預算效率的索賠被誇大了,但公司的成本仍然明顯低於競爭對手。例如,DeepSeek在R1上花費了500萬美元,而Chatgpt4的費用為1億美元。但是,它仍然比競爭對手便宜。