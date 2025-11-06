जब धीमंथ रेड्डी ने वॉइस मॉडल बनाने का फैसला किया, तो इसकी शुरुआत उनके आंध्र प्रदेश के एक छोटे से गांव से हुई कहानी से जुड़ी है. वे कहते हैं, “मेरी मां को AI के बारे में कुछ नहीं पता, लेकिन उनमें बहुत जिज्ञासा है. उनके लिए इस तकनीक से बात करने का एकमात्र तरीका आवाज है.” यहीं से शुरू हुआ Maya Research, जो बेंगलुरु की एक स्टार्टअप कंपनी है और इसे दो 23 वर्षीय युवाओं ने शुरू किया. उन्होंने Maya1 नाम का स्पीच मॉडल बनाया, जिसने हाल ही में Artificial Analysis लीडरबोर्ड पर Google के मॉडल को भी पीछे छोड़ दिया.

Google को पछाड़ने वाला भारतीय मॉडल

Maya Research को South Park Commons (SPC) जैसे वेंचर कैपिटल फर्म का समर्थन मिला है. यह टीम अपने मॉडल को शुरू से ट्रेन कर रही थी और लगातार सुनने वाले टेस्ट्स के ज़रिए इसकी क्वालिटी को बेहतर बनाती रही, ताकि यह हर बार प्रतियोगियों से बेहतर प्रदर्शन करे. अब यह टीम एक भारतीय (Indic) वर्ज़न पर काम कर रही है, जो जून 2026 तक लॉन्च होगा. रेड्डी का कहना है – “हम चाहते हैं कि भारत का अपना वॉइस मॉडल यहीं बने, यहीं ट्रेन हो और यहीं होस्ट हो.”

Maya1 बनाम OpenAI और ElevenLabs

Maya1 एक ओपन सोर्स वॉइस मॉडल है जो यूज़र्स को नेचुरल लैंग्वेज प्रॉम्प्ट्स से आवाज़ डिजाइन करने की सुविधा देता है, जैसे “Calm elderly teacher” या “Young male voice with excitement”. जबकि OpenAI और ElevenLabs के मॉडल्स में पहले से तय आवाज़ें होती हैं जिन्हें बदला नहीं जा सकता. Maya1 में 20 से ज़्यादा इमोशनल टोन कंट्रोल हैं – जैसे उत्साह, हिचकिचाहट, या बातचीत का गर्मजोशी भरा टोन. रेड्डी कहते हैं, “नेचुरलनेस आवाज़ की परफेक्ट रिकॉर्डिंग से नहीं, बल्कि उसके लहजे और सांसों की रफ्तार से आती है.”

कैसे बनाया गया मॉडल

Maya1 को सिर्फ 8 महीनों में जमीन से बनाया गया. टीम ने भारत के ग्रामीण इलाकों से हजारों लोगों को अपनी बोली में बोलने के लिए भुगतान किया, ताकि मॉडल को असली आवाज़ों पर ट्रेन किया जा सके. यह आवाजें अक्सर मोबाइल माइक से रिकॉर्ड की गईं, जिनमें बैकग्राउंड नॉइज़ भी था. रेड्डी कहते हैं, “ज्यादातर ग्लोबल मॉडल भारतीयों की बातें सही से ट्रांसक्राइब भी नहीं कर पाते.” उन्होंने यह भी कहा कि भारत में अभी तक सिर्फ 17,000 घंटे का इंडिक स्पीच डेटा है — जो बहुत कम है. रेड्डी ने कहा, “डेटा की गहराई मायने रखती है, सिर्फ घोषणाएं नहीं,”

हर डिवाइस पर चलने वाला मॉडल

Maya1 को इस तरह बनाया गया है कि यह एक ही GPU या बिना इंटरनेट के डिवाइस पर भी चल सकता है. यह खासतौर पर उन लोगों के लिए उपयोगी है जो गांवों या सीमित कनेक्टिविटी वाले इलाकों में रहते हैं. रेड्डी कहते हैं, “हमारा लक्ष्य है कि यह मॉडल हर किसी की पहुंच में हो, सिर्फ अमीर देशों के सर्वर पर नहीं.”

ग्राहक सेवा और सरकारी प्रोजेक्ट्स के लिए समाधान

कंपनी का फोकस ग्राहक सहायता सेवाओं पर है, ताकि गांवों के लोग भी अपनी भाषा में सहायता पा सकें. रेड्डी कहते हैं, “अगर किसी गांव के व्यक्ति ने कोई प्रोडक्ट मंगाया है, तो उसे ऐसा महसूस होना चाहिए कि उससे उसकी भाषा में बात की जा रही है.” वे यह भी मानते हैं कि सरकारी योजनाओं के लिए भी यह तकनीक उपयोगी होगी, जैसे लाभार्थियों से सीधा संपर्क या फीडबैक लेना.

भारत में डेटा रहना चाहिए

रेड्डी का मानना है कि भारतीयों की आवाज़ का डेटा विदेशों में नहीं जाना चाहिए. उन्होंने कहा, “अगर भारत का खुद का मॉडल नहीं होगा, तो हमारी हर आवाज़ विदेशों में भेजी जाएगी,” हाल ही में Microsoft द्वारा Nayara Energy की सेवाओं को EU प्रतिबंधों के चलते अस्थायी रूप से रोकने की घटना ने इस मुद्दे को और गंभीर बना दिया है. रेड्डी का कहना है, “भारतीय स्पीच डेटा को भारत में ही होस्ट किया जाना चाहिए.”