Deepseeks neuer Chatbot bietet eine beeindruckende Einführung: "Hallo, ich wurde erstellt, damit Sie alles fragen und eine Antwort erhalten können, die Sie sogar überraschen könnte." Diese KI, ein Produkt des chinesischen Startups Deepseek, ist schnell zu einem wichtigen Spieler geworden und hat sogar zu einem erheblichen Rückgang des Nvidia -Aktienkurs beigetragen. Der Erfolg ergibt sich aus einer einzigartigen Kombination aus architektonischen Innovations- und Schulungsmethoden.
Das Modell von Deepseek unterscheidet sich durch mehrere entscheidende technologische Fortschritte:
- Multi-Token-Vorhersage (MTP): Im Gegensatz zur herkömmlichen Wort-für-Wort-Vorhersage prognostiziert MTP mehrere Wörter gleichzeitig, wodurch sowohl die Genauigkeit als auch die Effizienz gesteigert werden.
- Mischung von Experten (MOE): Diese Architektur nutzt mehrere neuronale Netzwerke, um Daten zu verarbeiten, das Training zu beschleunigen und die Gesamtleistung zu verbessern. Deepseek V3 verwendet 256 neuronale Netze und aktiviert acht für jede Token -Verarbeitungsaufgabe.
- Multi-Head Latent Achtung (MLA): Dieser Mechanismus konzentriert sich auf die wichtigsten Satzelemente und extrahiert wiederholt Schlüsseldetails, um den Informationsverlust zu minimieren und ein nuanciertes Verständnis der Eingabedaten sicherzustellen.
Bild: Ensigame.com
Deepseek behauptete zunächst eine bemerkenswert niedrige Ausbildungskosten von nur 6 Millionen US -Dollar für sein mächtiges Deekseek V3 -Modell mit nur 2048 GPUs. Die semianalyse ergab jedoch eine weitaus umfangreichere Infrastruktur: ungefähr 50.000 NVIDIA Hopper -GPUs, einschließlich 10.000 H800, 10.000 H100 und zusätzliche H20 -Einheiten, die über mehrere Rechenzentren verteilt waren. Dies entspricht einer gesamten Serverinvestition von rund 1,6 Milliarden US -Dollar, wobei die Betriebskosten auf 944 Mio. USD geschätzt werden.
Bild: Ensigame.com
Deepseek, eine Tochtergesellschaft des chinesischen Hedgefonds-High-Flyer, besitzt seine Rechenzentren und bietet eine beispiellose Kontrolle über die Modelloptimierung und eine schnellere Innovationsimplementierung. Die selbstfinanzierte Natur verbessert die Beweglichkeit und Entscheidungsfindung. Das Unternehmen zieht auch Top -Talente an, wobei einige Forscher jährlich über 1,3 Millionen US -Dollar verdienen und hauptsächlich von chinesischen Universitäten rekrutieren.
Bild: Ensigame.com
Während Deepseeks anfängliche Schulungskostenansprüche in Höhe von 6 Millionen US-Dollar irreführend erscheint (nur vor der Ausbildung, ohne Forschung, Verfeinerung, Datenverarbeitung und Infrastruktur), hat das Unternehmen über 500 Millionen US-Dollar in die KI-Entwicklung investiert. Die magere Struktur ermöglicht effiziente Innovationen im Vergleich zu größeren, bürokratischeren Unternehmen.
Bild: Ensigame.com
Die Geschichte von Deepseek unterstreicht das Potenzial eines gut finanzierten, unabhängigen KI-Unternehmens, mit Branchenriesen zu konkurrieren. Der Erfolg ist jedoch unbestreitbar mit erheblichen Investitionen, technologischen Durchbrüchen und einem starken Team verbunden. Während Ansprüche der revolutionären Haushaltseffizienz wohl übertrieben sind, bleiben die Kosten des Unternehmens immer noch deutlich niedriger als die Wettbewerber. Zum Beispiel gab Deepseek 5 Millionen US -Dollar für R1 aus, während Chatgpt4 100 Millionen US -Dollar kostete. Es ist jedoch immer noch billiger als seine Konkurrenten.