Artificial Intelligence: प्राइमरी के बच्चों से भी इस मामले में पीछे है AI, वैज्ञानिकों का बड़ा खुलासा
AI latest news: एआई छवि जनरेटर को अन्य कार्यों की तुलना में पाठ और मात्राओं को सटीक रूप से प्रस्तुत करने के लिए बहुत अधिक प्रशिक्षण डेटा की आवश्यकता होती है.
AI challenges and opportunities: मिडजर्नी, स्टेबल डिफ्यूजन और DALL-E2 जैसे जेनरेटिव एआई टूल्स ने चंद सेकंड में ही शानदार छवियां बनाने की अपनी क्षमता से दुनियाभर को आश्चर्यचकित कर दिया है. हालांकि अभी तक अपनी कई उपलब्धियों के बावजूद, एआई छवि जनरेटर (AI image generator) क्या उत्पादन कर सकते हैं और हम क्या कर सकते हैं? के बीच एक अजीब असमानता बनी हुई है. उदाहरण के लिए, ये उपकरण अक्सर वस्तुओं की गिनती और सटीक पाठ तैयार करने जैसे सरल दिखने वाले कार्यों के लिए संतोषजनक परिणाम नहीं देते हैं.
प्राइमरी के बच्चे से इस मामले में पीछे है AI?
यदि जनरेटिव एआई रचनात्मक अभिव्यक्ति में इतनी अभूतपूर्व ऊंचाइयों तक पहुंच गया है, तो इसे उन कार्यों के साथ संघर्ष क्यों करना पड़ता है जिन्हें एक प्राथमिक विद्यालय का छात्र भी अच्छे से कर सकता है? अंतर्निहित कारणों की खोज से AI की जटिल संख्यात्मक प्रकृति और इसकी क्षमताओं की बारीकियों पर प्रकाश डालने में मदद मिलती है.
लेखन में AI की सीमाएं
मनुष्य विभिन्न फ़ॉन्ट और लिखावट में लिखे गए पाठ प्रतीकों (जैसे अक्षर, संख्या और चिन्हों) को आसानी से पहचान सकते हैं.हम विभिन्न संदर्भों में भी पाठ तैयार कर सकते हैं, और समझ सकते हैं कि संदर्भ कैसे अर्थ बदल सकता है. वर्तमान एआई छवि जनरेटर में इस अंतर्निहित समझ का अभाव है.उन्हें इस बात की कोई सच्ची समझ नहीं है कि किसी पाठ प्रतीक का क्या मतलब है.
ये जनरेटर बड़ी मात्रा में छवि डेटा पर प्रशिक्षित कृत्रिम तंत्रिका नेटवर्क पर बनाए गए हैं, जिससे वे संबंधों को सीखते हैं और भविष्यवाणियां करते हैं.
प्रशिक्षण छवियों में आकृतियों का संयोजन विभिन्न चीजों से जुड़ा हो सकता है.उदाहरण के लिए, अंदर की ओर मिलने वाली दो रेखाएं पेंसिल की नोक या घर की छत का प्रतिनिधित्व कर सकती हैं.
इंसानी क्षमता की बात है अलग
लेकिन जब पाठ और मात्रा की बात आती है, तो जुड़ाव अविश्वसनीय रूप से सटीक होना चाहिए, क्योंकि छोटी-मोटी खामियां भी ध्यान देने योग्य होती हैं. हमारा दिमाग पेंसिल की नोक, या छत में मामूली विचलन को नजरअंदाज कर सकता है - लेकिन जब कोई शब्द कैसे लिखा जाता है, या हाथ पर उंगलियों की संख्या की बात आती है, तो इसे नजरअंदाज नहीं किया जा सकता.
जहां तक टेक्स्ट-टू-इमेज मॉडल का सवाल है, टेक्स्ट प्रतीक केवल रेखाओं और आकृतियों का संयोजन हैं.चूंकि पाठ कई अलग-अलग शैलियों में आता है - और चूंकि अक्षरों और संख्याओं का उपयोग अंतहीन व्यवस्था में किया जाता है - मॉडल अक्सर यह नहीं सीख पाएगा कि पाठ को प्रभावी ढंग से कैसे पुन: पेश किया जाए.
इसका मुख्य कारण अपर्याप्त प्रशिक्षण डेटा है. एआई छवि जनरेटर को अन्य कार्यों की तुलना में पाठ और मात्राओं को सटीक रूप से प्रस्तुत करने के लिए बहुत अधिक प्रशिक्षण डेटा की आवश्यकता होती है.
एआई हाथों की त्रासदी
छोटी वस्तुओं, जैसे हाथों, के साथ काम करते समय भी समस्याएँ उत्पन्न होती हैं, जिनके लिए जटिल विवरण की आवश्यकता होती है. प्रशिक्षण छवियों में, हाथ अक्सर छोटे होते हैं, वस्तुओं को पकड़ते हैं, या अन्य तत्वों द्वारा आंशिक रूप से अस्पष्ट होते हैं.एआई के लिए "हाथ" शब्द को पांच अंगुलियों वाले मानव हाथ के सटीक प्रतिनिधित्व के साथ जोड़ना चुनौतीपूर्ण हो जाता है.
नतीजतन, AI-जनित हाथ अक्सर बेडौल दिखते हैं, उनमें अतिरिक्त या कम उंगलियां होती हैं, या हाथ आंशिक रूप से आस्तीन या पर्स जैसी वस्तुओं से ढके होते हैं.
जब मात्रा की बात आती है तो हम एक समान मुद्दा देखते हैं.एआई मॉडल में मात्राओं की स्पष्ट समझ का अभाव है, जैसे 'चार' की अमूर्त अवधारणा.
इस प्रकार, एक छवि जनरेटर कई मात्रा में सेब दिखाने वाली असंख्य छवियों से सीखकर 'चार सेब' के संकेत का जवाब दे सकता है - और गलत मात्रा के साथ आउटपुट लौटा सकता है.
दूसरे शब्दों में, प्रशिक्षण डेटा के भीतर संबंधों की विशाल विविधता आउटपुट में मात्रा की सटीकता को प्रभावित करती है.
क्या एआई कभी लिख और गिनती कर पाएगा?
यह याद रखना महत्वपूर्ण है कि टेक्स्ट-टू-इमेज और टेक्स्ट-टू-वीडियो रूपांतरण एआई में अपेक्षाकृत नई अवधारणा है.वर्तमान जेनरेटिव प्लेटफ़ॉर्म भविष्य में हम जो उम्मीद कर सकते हैं उसके कम-रिज़ॉल्यूशन' संस्करण हैं. प्रशिक्षण प्रक्रियाओं और एआई प्रौद्योगिकी में हो रही प्रगति के साथ, भविष्य के एआई छवि जनरेटर संभवतः सटीक विज़ुअलाइज़ेशन उत्पन्न करने में अधिक सक्षम होंगे.
यह भी ध्यान देने योग्य है कि अधिकांश सार्वजनिक रूप से सुलभ एआई प्लेटफ़ॉर्म उच्चतम स्तर की क्षमता प्रदान नहीं करते हैं.सटीक पाठ और मात्राएँ उत्पन्न करने के लिए अत्यधिक अनुकूलित नेटवर्क की आवश्यकता होती है.
(इनपुट: भाषा)