दीपसेक के नए चैटबोट में एक प्रभावशाली परिचय है: "हाय, मैं बनाया गया था ताकि आप कुछ भी पूछ सकें और एक जवाब प्राप्त कर सकें जो आपको आश्चर्यचकित भी कर सके।" यह एआई, चीनी स्टार्टअप दीपसेक का एक उत्पाद, जल्दी से एक प्रमुख खिलाड़ी बन गया है, यहां तक कि एनवीडिया के स्टॉक मूल्य में एक महत्वपूर्ण गिरावट में भी योगदान देता है। इसकी सफलता वास्तुशिल्प नवाचार और प्रशिक्षण पद्धति के एक अनूठे संयोजन से उपजी है।
दीपसेक का मॉडल कई प्रमुख तकनीकी प्रगति के माध्यम से खुद को अलग करता है:
- मल्टी-टोकन भविष्यवाणी (एमटीपी): पारंपरिक शब्द-दर-शब्द भविष्यवाणी के विपरीत, एमटीपी एक साथ कई शब्दों का अनुमान लगाता है, सटीकता और दक्षता दोनों को बढ़ाता है।
- विशेषज्ञों का मिश्रण (एमओई): यह आर्किटेक्चर डेटा को संसाधित करने, प्रशिक्षण में तेजी लाने और समग्र प्रदर्शन में सुधार करने के लिए कई तंत्रिका नेटवर्क का लाभ उठाता है। दीपसेक वी 3 256 तंत्रिका नेटवर्क का उपयोग करता है, प्रत्येक टोकन प्रसंस्करण कार्य के लिए आठ को सक्रिय करता है।
- मल्टी-हेड लेटेंट ध्यान (एमएलए): यह तंत्र सबसे महत्वपूर्ण वाक्य तत्वों पर केंद्रित है, सूचना हानि को कम करने के लिए बार-बार महत्वपूर्ण विवरण निकालता है और इनपुट डेटा की बारीक समझ सुनिश्चित करता है।
चित्र: ensigame.com
दीपसेक ने शुरू में केवल 2048 जीपीयू का उपयोग करते हुए अपने शक्तिशाली डीपसेक वी 3 मॉडल के लिए केवल $ 6 मिलियन की उल्लेखनीय रूप से कम प्रशिक्षण लागत का दावा किया था। हालांकि, सेमियालिसिस ने कहीं अधिक व्यापक बुनियादी ढांचे का खुलासा किया: लगभग 50,000 एनवीडिया हॉपर जीपीयू, जिसमें 10,000 H800, 10,000 H100 और अतिरिक्त H20 यूनिट शामिल हैं, कई डेटा केंद्रों में फैले हुए हैं। यह लगभग $ 1.6 बिलियन के कुल सर्वर निवेश का प्रतिनिधित्व करता है, जिसमें परिचालन खर्च $ 944 मिलियन का अनुमान है।
चित्र: ensigame.com
चाइनीज हेज फंड हाई-फ्लायर की एक सहायक कंपनी, डीपसेक अपने डेटा सेंटर का मालिक है, जो मॉडल अनुकूलन और तेजी से नवाचार कार्यान्वयन पर अद्वितीय नियंत्रण प्रदान करता है। इसकी स्व-वित्त पोषित प्रकृति चपलता और निर्णय लेने को बढ़ाती है। कंपनी शीर्ष प्रतिभाओं को भी आकर्षित करती है, कुछ शोधकर्ताओं ने सालाना 1.3 मिलियन डॉलर से अधिक की कमाई की, मुख्य रूप से चीनी विश्वविद्यालयों से भर्ती किया।
चित्र: ensigame.com
जबकि दीपसेक के शुरुआती $ 6 मिलियन प्रशिक्षण लागत का दावा भ्रामक लगता है (केवल पूर्व-प्रशिक्षण को कवर करना, अनुसंधान, शोधन, डेटा प्रसंस्करण और बुनियादी ढांचे को छोड़कर), कंपनी ने एआई विकास में $ 500 मिलियन से अधिक का निवेश किया है। इसकी दुबला संरचना बड़े, अधिक नौकरशाही निगमों की तुलना में कुशल नवाचार के लिए अनुमति देती है।
चित्र: ensigame.com
दीपसेक की कहानी उद्योग के दिग्गजों के साथ प्रतिस्पर्धा करने के लिए एक अच्छी तरह से वित्त पोषित, स्वतंत्र एआई कंपनी की क्षमता पर प्रकाश डालती है। हालांकि, इसकी सफलता निर्विवाद रूप से पर्याप्त निवेश, तकनीकी सफलताओं और एक मजबूत टीम से जुड़ी हुई है। जबकि क्रांतिकारी बजट दक्षता के दावे यकीनन अतिरंजित हैं, कंपनी की लागत प्रतियोगियों की तुलना में काफी कम रहती है। उदाहरण के लिए, दीपसेक ने R1 पर $ 5 मिलियन खर्च किए, जबकि CHATGPT4 की लागत $ 100 मिलियन है। हालांकि, यह अभी भी अपने प्रतिद्वंद्वियों की तुलना में सस्ता है।