Dipublikasikan: 21 November 2024
Setelah banyak kiriman luar biasa ke Kompetisi Developer Gemini API, kami telah memilih pemenang untuk aplikasi web terbaik: ViddyScribe.
ViddyScribe menunjukkan bagaimana Gemini dapat membantu membuat video lebih mudah diakses di YouTube, dan berpotensi di luarnya, dengan membuat deskripsi audio dari video apa pun yang disesuaikan untuk orang yang mengalami gangguan penglihatan.
Fitur dan kemampuan Gemini
ViddyScribe membuat aplikasi yang dirancang dengan mengutamakan pengguna. Meskipun sejumlah solusi sudah ada untuk membuat transkrip dan deskripsi audio, ViddyScribe memprioritaskan pembuatan output yang memprioritaskan hasil yang cepat dan pengalaman pengguna yang menyenangkan untuk audiens tertentu: orang dengan gangguan penglihatan.
Anotasi manual pada video untuk menawarkan detail tambahan bagi audiens ini memerlukan terlalu banyak waktu, dan sering diabaikan. ViddyScribe menggunakan Gemini untuk membantu membuat solusi kustom yang diskalakan lebih dari sekadar menambahkan beberapa deskripsi frame arbitrer ke file teks.
ViddyScribe menggunakan prompt engineering untuk mendapatkan hasil terbaik, dengan menyeleksi bahasa dan gaya pertanyaan untuk Gemini 1.5 Pro. Perintah ini menggunakan perintah chain-of-thought untuk meminta:
- Tujuan dan konteks video.
- Deskripsi audio yang disesuaikan menggunakan analisis dan panduan khusus video.
- Memformat ulang stempel waktu dan deskripsi untuk format yang dapat diprediksi dan konsisten.
Alasan kami memilih ViddyScribe
Kami memilih ViddyScribe karena merupakan solusi yang elegan untuk masalah nyata pengguna.
Meskipun mereka menemukan bahwa ada aplikasi lain di pasaran yang menyediakan deskripsi audio, mereka merasa kebutuhan orang-orang yang tuli dan cacat penglihatan tidak sepenuhnya dipahami. Developer ini bekerja sama dengan orang-orang di dunia nyata yang memiliki disabilitas ini untuk menentukan dengan tepat apa yang mereka butuhkan dalam aplikasi deskripsi audio.
Pengalaman orang-orang dengan disabilitas dapat sangat bervariasi, dan terkadang, mereka mungkin memiliki kebutuhan yang bersaing. Selain itu, deskripsi audio juga dapat membuat video ini dapat diakses oleh orang-orang yang neurodivergent dan orang lain yang lebih memilih membaca transkrip daripada menonton video.
Kami ingin melihat bagaimana developer terus meningkatkan ViddyScribe, memperluas audiens dan kemampuannya di masa mendatang.
Terus membangun dengan API AI bawaan
ViddyScribe hanyalah salah satu dari banyak aplikasi luar biasa yang Anda buat dengan Gemini.
Kami mengembangkan AI bawaan: API platform web dan fitur browser yang dirancang untuk mengintegrasikan model AI, termasuk model bahasa besar (LLM), langsung ke dalam browser. Ini mencakup Gemini Nano, versi paling efisien dari keluarga LLM Gemini, yang dirancang untuk berjalan secara lokal di sebagian besar komputer desktop dan laptop modern.
Temukan API yang tersedia untuk mulai membuat situs, aplikasi web, dan Ekstensi Chrome yang canggih.
Bagikan hasil build Anda kepada kami di @ChromiumDev atau bagikan ke Chrome untuk Developer di LinkedIn.