El nuevo chatbot de Deepseek cuenta con una introducción impresionante: "Hola, fui creado para que puedas preguntar cualquier cosa y obtener una respuesta que incluso te sorprenda". Esta IA, un producto de la startup china Deepseek, se ha convertido rápidamente en un jugador importante, incluso contribuyendo a una caída significativa en el precio de las acciones de Nvidia. Su éxito proviene de una combinación única de innovación arquitectónica y metodologías de capacitación.
El modelo de Deepseek se distingue a través de varios avances tecnológicos clave:
- Predicción de múltiples token (MTP): a diferencia de la predicción tradicional de palabras por palabra, MTP pronostica múltiples palabras simultáneamente, aumentando la precisión y la eficiencia.
- Mezcla de expertos (MOE): esta arquitectura aprovecha múltiples redes neuronales para procesar datos, acelerar la capacitación y mejorar el rendimiento general. Deepseek V3 utiliza 256 redes neuronales, activando ocho para cada tarea de procesamiento de tokens.
- Atención latente múltiple (MLA): este mecanismo se centra en los elementos de oración más cruciales, extrayendo repetidamente detalles clave para minimizar la pérdida de información y garantizar la comprensión matizada de los datos de entrada.
Imagen: ensigame.com
Deepseek inicialmente reclamó un costo de capacitación notablemente bajo de solo $ 6 millones para su poderoso modelo Deepseek V3, utilizando solo 2048 GPU. Sin embargo, el semianálisis reveló una infraestructura mucho más extensa: aproximadamente 50,000 GPU de tolva NVIDIA, incluidas 10,000 H800, 10,000 H100 y unidades H20 adicionales, se extienden entre múltiples centros de datos. Esto representa una inversión de servidor total de aproximadamente $ 1.6 mil millones, con gastos operativos estimados en $ 944 millones.
Imagen: ensigame.com
Una subsidiaria del Fondo de cobertura chino High-Flyer, Deepseek posee sus centros de datos, proporcionando un control incomparable sobre la optimización del modelo y la implementación de innovación más rápida. Su naturaleza autofinanciada mejora la agilidad y la toma de decisiones. La compañía también atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente reclutando de universidades chinas.
Imagen: ensigame.com
Si bien el reclamo inicial de costos de capacitación de $ 6 millones de Deepseek parece engañoso (que cubre solo la capacitación previa, excluyendo la investigación, el refinamiento, el procesamiento de datos e infraestructura), la compañía ha invertido más de $ 500 millones en desarrollo de IA. Su estructura magra permite una innovación eficiente en comparación con corporaciones más grandes y burocráticas.
Imagen: ensigame.com
La historia de Deepseek destaca el potencial de una compañía de IA independiente bien financiada para competir con los gigantes de la industria. Sin embargo, su éxito está indudablemente vinculado a una inversión sustancial, avances tecnológicos y un equipo fuerte. Si bien los reclamos de eficiencia presupuestaria revolucionaria son posiblemente exageradas, los costos de la compañía siguen siendo significativamente más bajos que los competidores. Por ejemplo, Deepseek gastó $ 5 millones en R1, mientras que ChatGPT4 costó $ 100 millones. Sin embargo, sigue siendo más barato que sus competidores.