公開日: 2024 年 11 月 21 日
Gemini API デベロッパー コンペティションに多数の素晴らしい作品が応募されましたが、ウェブ アプリケーション部門の優勝作品として ViddyScribe が選ばれました。
ViddyScribe は、視覚障がいのあるユーザー向けに動画の音声による説明を生成することで、YouTube で動画のアクセシビリティを高め、さらには YouTube 以外でも動画のアクセシビリティを高めることができる Gemini の例です。
機能と Gemini の機能
ViddyScribe は、ユーザー ファーストで設計されたアプリを構築しました。文字起こしと音声による説明を生成するためのソリューションはすでに多数存在しますが、ViddyScribe では、特定のオーディエンス(視覚障がいのある人々)を対象に、迅速な結果と快適なユーザー エクスペリエンスの両方を優先した出力の作成を重視しています。
このような視聴者に追加の詳細情報を提供するために動画を手動でアノテーションを付けるのは時間がかかり、多くの場合、無視されます。ViddyScribe は Gemini を使用して、任意のフレーム記述をテキスト ファイルに追加するだけではない、スケーラブルなカスタム ソリューションを作成しました。
ViddyScribe は、プロンプト エンジニアリングを使用して最良の結果を得、Gemini 1.5 Pro の質問の言語とスタイルをキュレートしました。このプロンプトでは、Chain-of-Thought プロンプトを使用して、以下をリクエストしました。
- 動画の目的とコンテキスト。
- 動画固有の分析とガイドラインに基づいて作成された、カスタマイズされた音声による説明。
- タイムスタンプと説明の形式を変更し、予測可能で一貫した形式にしました。
ViddyScribe を選んだ理由
実際のユーザーの問題に対するエレガントなソリューションだったため、ViddyScribe を選びました。
音声による説明を提供する他のアプリが市場に出回っていることはわかったものの、聴覚障がい者や視覚障がい者のニーズが十分に理解されていないと感じました。これらのデベロッパーは、これらの障がいを持つ実際のユーザーと協力して、音声による説明アプリに必要なものを正確に判断しました。
障がい者の経験は大きく異なる場合があり、競合するニーズが生じることもあります。また、音声による説明により、神経多様性のある方や、動画を視聴するのではなく文字起こしを読むことを好む方にも、これらの動画を視聴していただけます。
デベロッパーが ViddyScribe を継続的に強化し、今後、視聴者と機能を拡大していくことを楽しみにしています。
組み込みの AI API を使用して構築を続ける
ViddyScribe は、Gemini で作成された数多くの優れたアプリの 1 つにすぎません。
Google は、組み込み AI を開発しています。これは、大規模言語モデル(LLM)などの AI モデルをブラウザに直接統合するように設計されたウェブ プラットフォーム API とブラウザ機能です。これには、Gemini ファミリーの LLM の最も効率的なバージョンである Gemini Nano が含まれます。これは、ほとんどの最新のデスクトップ パソコンとノートパソコンでローカルに実行するように設計されています。
利用可能な API を調べて、強力なウェブサイト、ウェブ アプリケーション、Chrome 拡張機能の構築を開始しましょう。
作成した内容を @ChromiumDev で共有するか、LinkedIn の Chrome for Developers で共有してください。