वीडियो को ऐक्सेस करने की सुविधा को Gemini API Developer Competition का वेब अवॉर्ड मिला

Alexandra Klepper
Alexandra Klepper

पब्लिश किया गया: 21 नवंबर, 2024

Gemini API Developer कॉम्पटिशन में कई बेहतरीन सबमिशन मिलने के बाद, हमने सबसे अच्छे वेब ऐप्लिकेशन के लिए विजेता चुना है: ViddyScribe.

ViddyScribe से पता चलता है कि Gemini, YouTube पर वीडियो को ज़्यादा ऐक्सेस करने लायक कैसे बना सकता है. साथ ही, यह भी पता चलता है कि Gemini किसी भी वीडियो के लिए, ऑडियो डिस्क्रिप्शन जनरेट करके, उसे ऐसे लोगों के लिए तैयार कर सकता है जिन्हें देखने में परेशानी होती है.

Gemini की सुविधाएं

ViddyScribe ने उपयोगकर्ता के हिसाब से डिज़ाइन किया गया ऐप्लिकेशन बनाया है. ट्रांसक्रिप्ट और ऑडियो डिस्क्रिप्शन जनरेट करने के लिए, कई समाधान पहले से मौजूद हैं. हालांकि, ViddyScribe ने ऐसे आउटपुट बनाने पर प्राथमिकता दी है जो एक खास ऑडियंस के लिए, तेज़ नतीजे और बेहतर उपयोगकर्ता अनुभव, दोनों को प्राथमिकता देता है: ऐसे लोग जिनकी आंखों की रोशनी कम है.

इस ऑडियंस के लिए ज़्यादा जानकारी देने के लिए, वीडियो में मैन्युअल तौर पर एनोटेशन जोड़ने में काफ़ी समय लगता है. इसलिए, अक्सर इस बात को अनदेखा कर दिया जाता है. ViddyScribe ने Gemini का इस्तेमाल करके, अपनी ज़रूरत के हिसाब से एक ऐसा समाधान बनाया है जो टेक्स्ट फ़ाइल में कुछ फ़्रेम की जानकारी जोड़ने के अलावा, और भी काम करता है.

ViddyScribe में दो सैंपल और अपलोड करने के लिए जगह होती है.
ViddyScribe ऐप्लिकेशन की मदद से, लोग Gemini की मदद से ऑडियो डिस्क्रिप्शन जनरेट करने के लिए, सैंपल वीडियो का इस्तेमाल कर सकते हैं या अपना वीडियो अपलोड कर सकते हैं. वीडियो का साइज़ 100 एमबी और अवधि दो मिनट से ज़्यादा होनी चाहिए.

ViddyScribe ने Gemini 1.5 Pro के लिए, सवाल की भाषा और स्टाइल को चुनकर, बेहतर नतीजे पाने के लिए प्रॉम्प्ट इंजीनियरिंग का इस्तेमाल किया. इस प्रॉम्प्ट में, सिलसिलेवार तरीके से सवाल पूछने की सुविधा का इस्तेमाल करके, ये अनुरोध किए गए:

  • वीडियो का मकसद और कॉन्टेक्स्ट.
  • वीडियो के हिसाब से विश्लेषण और दिशा-निर्देशों का इस्तेमाल करके, ऑडियो के ज़रिए जानकारी देने की सुविधा.
  • टाइमस्टैंप और ब्यौरे को एक जैसा और अनुमानित फ़ॉर्मैट देने के लिए, उन्हें फिर से फ़ॉर्मैट किया गया.

हमने ViddyScribe को क्यों चुना

हमने ViddyScribe को इसलिए चुना, क्योंकि यह उपयोगकर्ता की असल समस्या का बेहतरीन समाधान था.

जबकि उन्होंने पाया कि बाज़ार में ऑडियो उपलब्ध कराने वाले अन्य एप्लिकेशन भी थे विवरण के अनुसार, उन्होंने बहरे और दृष्टिबाधित लोगों की ज़रूरतों को महसूस किया पूरी तरह से समझ नहीं पाए थे. इन डेवलपर ने इन दिव्यांगताओं से ग्रस्त लोगों के साथ मिलकर काम किया, ताकि यह पता लगाया जा सके कि ऑडियो डिस्क्रिप्शन ऐप्लिकेशन में उन्हें क्या चाहिए.

दिव्यांग लोगों के अनुभव अलग-अलग हो सकते हैं. साथ ही, कभी-कभी उनकी ज़रूरतें भी अलग-अलग हो सकती हैं. इसके अलावा, ऑडियो डिस्क्रिप्शन की मदद से, ऐसे लोगों के लिए भी इन वीडियो को ऐक्सेस किया जा सकता है जो न्यूरोडाइवर्जेंट (अलग तरह से सोचने-समझने वाले) हैं. साथ ही, ऐसे लोग भी इन वीडियो को ऐक्सेस कर सकते हैं जो वीडियो देखने के बजाय, ट्रांसक्रिप्ट पढ़ना पसंद करते हैं.

हमें यह देखकर खुशी हो रही है कि डेवलपर, ViddyScribe को बेहतर बना रहे हैं. इससे आने वाले समय में, दर्शकों की संख्या और सुविधाओं में बढ़ोतरी होगी.

पहले से मौजूद एआई एपीआई की मदद से, ऐप्लिकेशन को बेहतर बनाना

ViddyScribe, Gemini की मदद से बनाए गए कई बेहतरीन ऐप्लिकेशन में से एक था.

हम पहले से मौजूद एआई को डेवलप कर रहे हैं: वेब प्लैटफ़ॉर्म एपीआई और ब्राउज़र की सुविधाएं, जिन्हें एआई मॉडल को सीधे ब्राउज़र में इंटिग्रेट करने के लिए डिज़ाइन किया गया है. इनमें लार्ज लैंग्वेज मॉडल (एलएलएम) भी शामिल हैं. इनमें Gemini Nano भी शामिल है. यह एलएलएम के Gemini फ़ैमिली का सबसे बेहतर वर्शन है. इसे ज़्यादातर आधुनिक डेस्कटॉप और लैपटॉप कंप्यूटर पर स्थानीय तौर पर चलाने के लिए डिज़ाइन किया गया है.

बेहतरीन वेबसाइटें, वेब ऐप्लिकेशन, और Chrome एक्सटेंशन बनाने के लिए, उपलब्ध एपीआई खोजें.

@ChromiumDev पर, अपने बनाए गए टूल शेयर करें या LinkedIn पर Chrome for Developers के साथ शेयर करें.