O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Essa IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um participante importante, contribuindo para uma queda significativa no preço das ações da NVIDIA. Seu sucesso decorre de uma combinação única de metodologias de inovação e treinamento arquitetônicas.
O modelo de Deepseek se distingue através de vários avanços tecnológicos importantes:
- Previsão de vários toques (MTP): Ao contrário da previsão tradicional de palavra por palavra, o MTP prevê várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Esta arquitetura aproveita várias redes neurais para processar dados, acelerando o treinamento e melhorando o desempenho geral. O Deepseek V3 utiliza 256 redes neurais, ativando oito para cada tarefa de processamento de token.
- Atenção latente de várias cabeças (MLA): Esse mecanismo se concentra nos elementos mais cruciais da frase, extraindo repetidamente os principais detalhes para minimizar a perda de informações e garantir a compreensão diferenciada dos dados de entrada.
Imagem: Ensigame.com
A Deepseek reivindicou inicialmente um custo de treinamento notavelmente baixo de apenas US $ 6 milhões para seu poderoso modelo Deepseek V3, usando apenas 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito mais extensa: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo 10.000 H800, 10.000 H100 e unidades H20 adicionais, espalhadas por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.
Imagem: Ensigame.com
Uma subsidiária do fundo de hedge chinês High-Flyer, a Deepseek possui seus data centers, fornecendo controle incomparável sobre a otimização de modelos e implementação mais rápida da inovação. Sua natureza autofinanciada aumenta a agilidade e a tomada de decisões. A empresa também atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, recrutando principalmente de universidades chinesas.
Imagem: Ensigame.com
Embora a reivindicação inicial de custo de treinamento de US $ 6 milhões da Deepseek pareça enganosa (cobrindo apenas pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura), a empresa investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura enxuta permite uma inovação eficiente em comparação com empresas maiores e mais burocráticas.
Imagem: Ensigame.com
A história de Deepseek destaca o potencial de uma empresa de IA independente e bem financiada para competir com os gigantes do setor. No entanto, seu sucesso está inegavelmente ligado a investimentos substanciais, avanços tecnológicos e uma equipe forte. Embora as reivindicações de eficiência orçamentária revolucionária sejam indiscutivelmente exageradas, os custos da empresa permanecem significativamente menores que os concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, enquanto o ChatGPT4 custou US $ 100 milhões. No entanto, ainda é mais barato que seus concorrentes.