Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал крупным игроком, даже способствуя значительному падению цены акций Nvidia. Его успех связан с уникальным сочетанием архитектурных инноваций и методологий обучения.
Модель DeepSeek отличается через несколько ключевых технологических достижений:
- Multi-Token Production (MTP): в отличие от традиционного прогнозирования словесного слова, MTP прогнозирует несколько слов одновременно, повышая как точность, так и эффективность.
- Смесь экспертов (MOE): эта архитектура использует несколько нейронных сетей для обработки данных, ускорения обучения и повышения общей производительности. DeepSeek V3 использует 256 нейронных сетей, активируя восемь для каждой задачи обработки токенов.
- Многоугольное скрытое внимание (MLA): этот механизм фокусируется на наиболее важных элементах предложения, неоднократно извлекая ключевые данные для минимизации потери информации и обеспечения тонкого понимания входных данных.
Изображение: Ensigame.com
Первоначально DeedSeek потребовал удивительно низкую стоимость обучения всего в 6 миллионов долларов для своей мощной модели Deepseek V3, используя только 2048 графических процессоров. Тем не менее, полуанализа выявил гораздо более обширную инфраструктуру: приблизительно 50 000 графических процессоров NVIDIA, в том числе 10 000 H800, 10 000 H100 и дополнительных единиц H20, распространяющиеся по нескольким центрам обработки данных. Это составляет общие инвестиции в сервер в размере примерно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.
Изображение: Ensigame.com
Дочерняя компания Китайского хедж-фонда с высоким содержанием фонда, Deepseek владеет своими центрами обработки данных, обеспечивая непревзойденную контроль над оптимизацией модели и более быстрой реализацией инноваций. Его самофинансируемая природа повышает ловкость и принятие решений. Компания также привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в первую очередь, набираясь из китайских университетов.
Изображение: Ensigame.com
Несмотря на то, что первоначальная заявка DeepSeek в 6 миллионов долларов представляется вводящей в заблуждение (охватывая только предварительное обучение, исключая исследования, уточнение, обработку данных и инфраструктуру), компания инвестировала более 500 миллионов долларов в разработку искусственного интеллекта. Его бережливая структура обеспечивает эффективные инновации по сравнению с более крупными, более бюрократическими корпорациями.
Изображение: Ensigame.com
История Deepseek подчеркивает потенциал хорошо финансируемой независимой компании по искусству конкурировать с отраслевыми гигантами. Тем не менее, его успех, несомненно, связан с существенными инвестициями, технологическими прорывами и сильной командой. Хотя претензии о эффективности революционного бюджета, возможно, преувеличены, расходы компании остаются значительно ниже, чем конкуренты. Например, Deepseek потратил 5 миллионов долларов на R1, а Catgpt4 стоил 100 миллионов долларов. Тем не менее, это все еще дешевле, чем его конкуренты.