ভিডিও অ্যাক্সেসিবিলিটি জেমিনি API ডেভেলপার কম্পিটিশন ওয়েব অ্যাওয়ার্ড জিতেছে

প্রকাশিত: নভেম্বর 21, 2024

Gemini API বিকাশকারী প্রতিযোগিতায় অসংখ্য অবিশ্বাস্য জমা দেওয়ার পরে, আমরা সেরা ওয়েব অ্যাপ্লিকেশনের জন্য বিজয়ী নির্বাচন করেছি: ViddyScribe

ViddyScribe উদাহরণ দেয় যে মিথুন কীভাবে YouTube-এ ভিডিওগুলিকে আরও অ্যাক্সেসযোগ্য করতে সাহায্য করতে পারে এবং সম্ভাব্যভাবে এর বাইরেও, যে কোনও ভিডিওর অডিও বর্ণনা তৈরি করে যা দৃষ্টি প্রতিবন্ধীদের জন্য তৈরি করা হয়েছে৷

বৈশিষ্ট্য এবং মিথুন ক্ষমতা

ViddyScribe একটি ব্যবহারকারী-প্রথম ডিজাইন করা অ্যাপ্লিকেশন তৈরি করেছে। ট্রান্সক্রিপ্ট এবং অডিও বর্ণনা তৈরি করার জন্য ইতিমধ্যেই বেশ কয়েকটি সমাধান বিদ্যমান থাকলেও, ViddyScribe একটি আউটপুট তৈরিকে অগ্রাধিকার দেয় যা দ্রুত ফলাফল এবং একটি নির্দিষ্ট দর্শকদের জন্য একটি আনন্দদায়ক ব্যবহারকারীর অভিজ্ঞতা উভয়কেই অগ্রাধিকার দেয়: দৃষ্টি প্রতিবন্ধী ব্যক্তিরা।

এই শ্রোতাদের জন্য অতিরিক্ত বিবরণ অফার করার জন্য ভিডিওগুলির ম্যানুয়াল টীকাটি অনেক বেশি সময় নেয় এবং প্রায়শই উপেক্ষিত হয়৷ ViddyScribe একটি কাস্টম সমাধান তৈরি করতে সাহায্য করার জন্য Gemini ব্যবহার করেছে যা একটি পাঠ্য ফাইলে কিছু নির্বিচারে ফ্রেমের বিবরণ যোগ করার বাইরেও স্কেল করে।

ViddyScribe এর দুটি নমুনা এবং একটি আপলোড স্থান রয়েছে।
ViddyScribe অ্যাপটি ব্যবহারকারীদের একটি নমুনা ভিডিও ব্যবহার করতে বা তাদের নিজস্ব (100MB এবং 2 মিনিট দীর্ঘ) আপলোড করতে দেয় যাতে জেমিনির সাথে অডিও বিবরণ তৈরি করা যায়।

ViddyScribe জেমিনি 1.5 প্রো-এর জন্য প্রশ্নের ভাষা এবং স্টাইল কিউরেট করে সেরা ফলাফল পেতে প্রম্পট ইঞ্জিনিয়ারিং ব্যবহার করেছে। এই প্রম্পটটি অনুরোধ করার জন্য চেইন-অফ-থট প্রম্পটিং ব্যবহার করেছে:

  • ভিডিওটির উদ্দেশ্য এবং প্রসঙ্গ।
  • ভিডিও-নির্দিষ্ট বিশ্লেষণ এবং নির্দেশিকা ব্যবহার করে উপযোগী অডিও বর্ণনা।
  • একটি অনুমানযোগ্য এবং সামঞ্জস্যপূর্ণ বিন্যাসের জন্য পুনরায় ফর্ম্যাট করা টাইমস্ট্যাম্প এবং বিবরণ।

কেন আমরা ViddyScribe বেছে নিয়েছি

আমরা ViddyScribe বেছে নিয়েছি কারণ এটি একটি বাস্তব ব্যবহারকারী সমস্যার একটি মার্জিত সমাধান ছিল।

যদিও তারা দেখতে পায় যে বাজারে অডিও বর্ণনা প্রদানকারী অন্যান্য অ্যাপ্লিকেশন রয়েছে, তারা অনুভব করেছে যে বধির এবং দৃষ্টি প্রতিবন্ধী মানুষের চাহিদা সম্পূর্ণরূপে বোঝা যায় না। এই বিকাশকারীরা অডিও বর্ণনা অ্যাপ্লিকেশনে তাদের ঠিক কী প্রয়োজন তা নির্ধারণ করতে এই অক্ষমতা আছে এমন প্রকৃত ব্যক্তিদের সাথে কাজ করেছেন।

প্রতিবন্ধী ব্যক্তিদের অভিজ্ঞতা ব্যাপকভাবে পরিবর্তিত হতে পারে, এবং কখনও কখনও, তাদের প্রতিযোগী প্রয়োজন থাকতে পারে। অতিরিক্তভাবে, অডিও বর্ণনাগুলি এই ভিডিওগুলিকে এমন লোকেদের কাছে অ্যাক্সেসযোগ্য করে তুলতে পারে যারা নিউরোডাইভারজেন্ট এবং অন্যরা যারা ভিডিও দেখার পরিবর্তে একটি ট্রান্সক্রিপ্ট পড়তে পছন্দ করে৷

বিকাশকারীরা কীভাবে ViddyScribe-কে উন্নত করে চলেছেন, ভবিষ্যতে শ্রোতা এবং সক্ষমতা বাড়াচ্ছেন তা দেখে আমরা উত্তেজিত।

বিল্ট-ইন এআই এপিআই দিয়ে বিল্ডিং চালিয়ে যান

ViddyScribe ছিল মিথুনের সাথে আপনার তৈরি করা অনেক আশ্চর্যজনক অ্যাপ্লিকেশনের মধ্যে একটি।

আমরা বিল্ট-ইন AI ডেভেলপ করছি: ওয়েব প্ল্যাটফর্ম API এবং ব্রাউজার বৈশিষ্ট্যগুলি সরাসরি ব্রাউজারে বড় ভাষা মডেল (LLMs) সহ AI মডেলগুলিকে একীভূত করার জন্য ডিজাইন করা হয়েছে৷ এর মধ্যে রয়েছে জেমিনি ন্যানো , এলএলএম-এর জেমিনি পরিবারের সবচেয়ে দক্ষ সংস্করণ, যা বেশিরভাগ আধুনিক ডেস্কটপ এবং ল্যাপটপ কম্পিউটারে স্থানীয়ভাবে চালানোর জন্য ডিজাইন করা হয়েছে।

শক্তিশালী ওয়েবসাইট, ওয়েব অ্যাপ্লিকেশান এবং Chrome এক্সটেনশনগুলি তৈরি করা শুরু করতে উপলব্ধ APIগুলি আবিষ্কার করুন৷

@ChromiumDev- এ আপনি যা তৈরি করেন তা শেয়ার করুন অথবা LinkedIn-এ বিকাশকারীদের জন্য Chrome- এর সাথে শেয়ার করুন।