DeepSeek的新聊天机器人拥有令人印象深刻的介绍:“嗨,我被创建了,您可以问任何东西,并得到一个甚至可能让您感到惊讶的答案。”这种AI是中国初创公司DeepSeek的产物,已迅速成为主要参与者,甚至导致NVIDIA的股价大幅下降。它的成功源于建筑创新和培训方法的独特结合。
DeepSeek的模型通过几个关键的技术进步来区分自己:
- 多语预测(MTP):与传统的单词预测不同,MTP同时预测了多个单词,从而提高了准确性和效率。
- 专家的混合(MOE):该体系结构利用多个神经网络来处理数据,加速培训并改善整体性能。 DeepSeek V3使用256个神经网络,为每个令牌处理任务激活8个。
- 多头潜在注意力(MLA):这种机制着重于最关键的句子元素,反复提取关键细节以最大程度地减少信息丢失并确保对输入数据的细微理解。
图片:ensigame.com
DeepSeek最初仅使用2048 GPU,其强大的DeepSeek V3车型的培训成本仅为600万美元。但是,半分析显示出更广泛的基础设施:大约50,000个NVIDIA HOPPER GPU,包括10,000 H800、10,000 H100和其他H20单元,分布在多个数据中心。这代表了一笔总额约16亿美元的服务器投资,运营费用估计为9.44亿美元。
图片:ensigame.com
DeepSeek是中国对冲基金高级基金的子公司,拥有其数据中心,提供了对模型优化和更快创新实施的无与伦比的控制。它的自资助性质增强了敏捷性和决策。该公司还吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要是从中国大学招募的。
图片:ensigame.com
尽管DeepSeek最初的600万美元培训成本索赔似乎具有误导性(仅涵盖预培训,不包括研究,改进,数据处理和基础设施),但该公司已在AI开发方面投资了超过5亿美元。与更大,更官僚的公司相比,其精益结构允许有效的创新。
图片:ensigame.com
DeepSeek的故事强调了一家资金充足,独立的AI公司与行业巨头竞争的潜力。但是,它的成功无疑与大量投资,技术突破和强大的团队有关。虽然可以说革命预算效率的索赔被夸大了,但公司的成本仍然明显低于竞争对手。例如,DeepSeek在R1上花费了500万美元,而Chatgpt4的费用为1亿美元。但是,它仍然比竞争对手便宜。