Summary: भारतीय भाषाओं के लिए बना AI, दुनिया के बड़े मॉडल्स को चुनौती
बेंगलुरु की स्टार्टअप Sarvam AI ने भारतीय भाषाओं के लिए बनाए गए अपने मॉडल्स से टेक दुनिया का ध्यान खींचा है। कंपनी का दावा है कि उसका OCR और वॉयस सिस्टम कुछ खास परीक्षणों में बड़े वैश्विक AI मॉडल्स को टक्कर दे रहा है।
What is Sarvam AI: अब तक आर्टिफिशियल इंटेलिजेंस की दौड़ में अमेरिका और चीन का ही वर्चस्व माना जाता था, लेकिन भारत भी तेजी से अपनी मौजूदगी दर्ज करा रहा है। बेंगलुरु की स्टार्टअप Sarvam AI ने अपने देसी AI मॉडलों के जरिए वैश्विक टेक जगत का ध्यान खींचा है। कंपनी का दावा है कि उसके मॉडल भारतीय भाषाओं से जुड़े कामों जैसे दस्तावेज़ पढ़ना और आवाज़ बनाना आदि में कई बड़े वैश्विक सिस्टम से बेहतर प्रदर्शन कर रहे हैं। खासतौर पर दस्तावेज़ पहचान (OCR) और टेक्स्ट-टू-स्पीच तकनीक में इसके नतीजों ने टेक जगत का ध्यान खींचा है।
Sarvam AI क्या है?
Sarvam AI की स्थापना 2023 में डॉ. विवेक राघवन और डॉ. प्रत्युष कुमार ने की थी। कंपनी का लक्ष्य बड़े और भारी क्लाउड-आधारित AI बनाने के बजाय ऐसे छोटे और तेज मॉडल बनाना है जो भारत की वास्तविक जरूरतों में काम आएं। भारत में इंटरनेट की गति हर जगह समान नहीं है, और यहां दर्जनों भाषाएं तथा बोलियां इस्तेमाल होती हैं। Sarvam AI इसी चुनौती को हल करने पर काम कर रहा है यानी ऐसा AI जो मोबाइल फोन, कॉल सेंटर और लोकल भाषाओं में आसानी से काम कर सके। इससे पहले प्रत्युष कुमार ने भारतीय भाषाओं के लिए AI एप्लिकेशन विकसित करने वाली पहल AI4Bharat और सस्ती ऑनलाइन शिक्षा प्लेटफॉर्म PadhAI शुरू किया था।
Drop 4/14: Introducing Sarvam Vision: a state-space based 3 billion parameter vision language model that is competitive with the best results in digitisation in English, and defines a significantly higher bar for Indian languages. See the details in our blog:…
— Pratyush Kumar (@pratykumar) February 5, 2026
Bulbul V3 और Vision मॉडल क्यों चर्चा में हैं
Sarvam AI ने हाल ही में दो प्रमुख तकनीकें लॉन्च कीं हैं- Bulbul V3 (आवाज़ बनाने वाला सिस्टम) और Vision (दस्तावेज़ पढ़ने वाला OCR मॉडल)। इस समय Bulbul V3 में 11 भारतीय भाषाओं के लिए 35 से ज्यादा आवाज़ विकल्प दिए गए हैं, और कंपनी का लक्ष्य इसे बढ़ाकर 22 भाषाओं तक पहुंचाने का है। KissanAI के संस्थापक प्रतीक देसाई ने भी इसकी सराहना करते हुए कहा कि यह भारतीय भाषाओं के लिए सबसे प्रभावी और किफायती टेक्स्ट-टू-स्पीच मॉडल बनकर उभर रहा है। Vision मॉडल ने भारतीय भाषाओं में लिखे दस्तावेज़ों को पढ़ने में कुछ सामान्य अंतरराष्ट्रीय मॉडलों से बेहतर परिणाम दिखाए। भारत में सरकारी कागज, फॉर्म और रिकॉर्ड अक्सर स्थानीय भाषाओं में होते हैं, इसलिए यह तकनीक बेहद उपयोगी साबित हो सकती है।
क्या सच में Google और ChatGPT से बेहतर?
कंपनी ने जिन परीक्षणों का हवाला दिया, उनमें ब्लाइंड लिसनिंग टेस्ट और ऑटोमैटिक एरर चेक शामिल थे। कुछ मीडिया रिपोर्ट्स में स्वतंत्र श्रोताओं के वोट और बड़े सैंपल साइज का भी जिक्र किया गया है। हालांकि विशेषज्ञ मानते हैं कि ऐसे नतीजों को अंतिम निष्कर्ष नहीं माना जा सकता। किसी भी नई तकनीक की वास्तविक तुलना के लिए व्यापक और स्वतंत्र परीक्षण जरूरी होते हैं। इसलिए अभी यह कहना जल्दबाज़ी होगी कि एक कंपनी ने पूरी तरह वैश्विक AI दिग्गजों को पीछे छोड़ दिया है।
आम लोगों को क्या मिलेगा फायदा
अगर यह तकनीक बड़े स्तर पर लागू होती है तो भारत में कई बदलाव दिख सकते हैं।
कॉल सेंटर सस्ते और ज्यादा प्राकृतिक वॉयस असिस्टेंट इस्तेमाल कर पाएंगे, सरकारी सेवाएं स्थानीय भाषाओं में आसानी से उपलब्ध होंगी और दस्तावेज़ों को डिजिटल बनाना तेज होगा।
आज तक ज्यादातर AI मॉडल अंग्रेजी-केंद्रित रहे हैं। लेकिन भारत जैसे देश में जहां भाषाई विविधता बहुत ज्यादा है, वहां स्थानीय डेटा और जरूरतों के आधार पर बने मॉडल ज्यादा कारगर हो सकते हैं।
