Chat GPT और उसके बाद GPT 4 के आने के बाद जनरेटिव AI पर हर तरफ खूब बात हो रही है. जनरेटिव AI माने वो AI फीचर जिसकी मदद से कुछ क्रिएट किया जा सके. गूगल और माइक्रोसॉफ्ट जैसी कंपनियों ने भी अपने AI सिस्टम मार्केट में उतार दिए हैं. AI डेवलपर्स लगातार ऐसे फीचर्स पर काम कर रहे हैं, जिनसे लोगों की प्रोडक्टिविटी और ज्यादा बढ़ सके. अभी टेक्स्ट से फोटो बनाने वाला AI सिस्टम चर्चा में बना हुआ है, आप फोटो का डिस्क्रिप्शन लिखते हैं और AI एक बढ़िया फोटो क्रिएट करके दे देता है. इसी तरह अब AI डेवलपर्स एक ऐसे फीचर पर काम कर रहे हैं, जिससे टेक्स्ट से वीडियो बनाया जा सके.
क्या है AI का Text to video Feature
पहले आप वीडियो बनाने का एक मोटा-मोटी प्रोसेस समझ लीजिए. वीडियो बनाने के लिए पहले आपको स्क्रिप्ट लिखनी पड़ती है. उस स्क्रिप्ट को शूट करना पड़ता है. शूट करने के बाद उस वीडियो के लिए फुटेज निकालने पड़ते हैं. उसके बाद वो वीडियो जाता है एडिटिंग के लिए. इसके बाद वीडियो पूरी तरह तैयार होता है. AI का टेक्स्ट टू वीडियो फीचर अगर आ गया तो आपको केवल स्क्रिप्ट लिख देनी होगी. स्क्रिप्ट भी AI की मदद से लिखे जा सकते हैं. स्क्रिप्ट लिखने के बाद उसे AI सिस्टम में फीड करना होगा और AI उस स्क्रिप्ट के हिसाब से वीडियो बनाकर दे देगा.
अमेरिकी स्टार्टअप रनवे ने हाल ही में अपने जेन टू टेक्स्ट टू वीडियो मॉडल को शोकेस किया था. कंपनी का दावा है कि ये पहला सार्वजनिक रूप से उपलब्ध टेक्स्ट टू वीडियो मॉडल है. रनवे एक छोटा सा स्टार्टअप है, जो अपने वीडियो एडिटिंग टूल्स के लिए जाना जाता है. इसके साथ ही रनवे का वीडियो टू वीडियो जेन 1 मॉडल भी टेक्स्ट और कुछ तस्वीरों की मदद से वीडियो क्रिएट करने में एक्सपर्ट है.
जिस तरह ‘man swimming in river with hills in the background’ टाइप करने से नदी में तैरते आदमी की फोटो AI सिस्टम्स से जनरेट हो जाते हैं. माना जा रहा है कि टेक्स्ट-टू-वीडियो में इसी तरह का डिस्क्रिप्शन देने पर वीडियो भी तैयार हो जाएगा.
कितना मुश्किल है टेक्स्ट से वीडियो जनरेट करना?
गूगल और फेसबुक दोनों ही AI जनरेटिव वीडियो को लेकर बड़े अनाउंसमेंट कर चुके हैं. गूगल ने इमेजन और फेनाकि मॉडल्स लॉन्च किए हैं. वहीं, सितंबर, 2022 में मेटा ने अनाउंस किया था कि वो एक AI वीडियो जनरेटिव फीचर लेकर आ रहा है. कहा था कि ये फीचर डिजिटल क्रिएटर्स और आर्टिस्ट्स के बहुत काम आएगा. हालांकि, इन वीडियोज़ में कोई आवाज़ नहीं होती थी. तब मार्क जकरबर्ग ने कहा था कि AI से वीडियो जनरेट करना, फोटो जनरेट करने की तुलना में काफी मुश्किल है.
टेक्स्ट से वीडियो बनाना सुनने में जितना आसान लगता है, प्रैक्टिकली वो उतना आसान है नहीं. अब सोचिए अभी आप कोई इमेज सोचते हैं तो उससे जुड़े चार कीवर्ड्स डालकर उसे गूगल पर खोज लेते हैं. उन तस्वीरों को आप अपने वीडियो में इस्तेमाल कर लेते हैं. आप जब AI पर तस्वीरें जनरेट करने जाते हैं, तो उस तस्वीर को आपको अच्छे से एक्सप्लेन करना पड़ता है. उसके बाद भी ज्यादातर टाइम वो तस्वीर वैसी निकलकर नहीं आती है जैसी आपने उम्मीद की थी. कुछ बेसिक सा निकलकर आता है.
एक फोटो निकालने में AI सिस्टम मिनट भर का समय ले लेता है. पर वीडियो के लिए समय भी ज्यादा लगेगा, और जिस शुरुआती स्टेज में जनरेटिव AI है, उसमें उतना फिनिश भी आपको नहीं मिल पाएगा. हो सकता है कि वो कुछ ऐसा वीडियो जनरेट करदे जिसमें आपको कुछ समझ में ही न आए. हालांकि, ये एक शुरुआती स्टेज है और हो सकता है कि आने वाले समय में टेक्स्ट टू वीडियो मॉडल अभी से बेहतर बन जाए.
टेक्स्ट टू वीडियो का एक दूसरा बड़ा खतरा है कि ऐसे वीडियोज़ के जरिए गलत जानकारी फैलाई जा सकती है. डीप फेक अभी से और बड़ी समस्या बनकर उभर सकते हैं. डीप फेक यानी किसी वीडियो या फोटो में चेहरा ऐसे बदल देना जैसे वीडियो उसी शख्स का हो जिसका चेहरा दिख रहा है.
ऐपल ने एंड्रॉयड से कॉपी किए हैं 5 फीचर्सआगे देखें…
जब गलत जानकारी के प्रचार और डीप फेक जैसी चीज़ों में AI सिस्टम के गलत इस्तेमाल की बात आती है, तो एलन मस्क, ऐपल के को-फाउंडर स्टीव वॉज़निक और दूसरे टेक एक्सपर्ट द्वारा लिखे गए ओपन लेटर का ध्यान आता है. उस ओपन लेटर में इसी तरह के खतरों का जिक्र किया गया था. अपील की गई थी कि AI सिस्टम्स बनाने की जो जंग बड़ी टेक कंपनियों के बीच छिड़ी है, उसे कम से कम छह महीने के लिए रोका जाए.
इन छह महीनों में ऐसा सिस्टम तैयार किया जाए कि AI का इस्तेमाल गलत जानकारी फैलाने या किसी की मानहानि के लिए न किया जा सके. इन टेक एक्सपर्ट्स ने ये अपील भी की थी कि AI सिस्टम्स के इस्तेमाल को लेकर सरकारें भी गाइडलाइंस तय करें. ताकि इनके गलत इस्तेमाल को रोका जा सके.