公開日: 2024 年 5 月 14 日、最終更新日: 2024 年 11 月 13 日
ウェブで AI モデルを使用して特徴を構築する場合、大規模なモデルにはサーバーサイド ソリューションを使用することがよくあります。これは特に生成 AI に当てはまります。生成 AI では、最も小さいモデルでもウェブページの平均サイズの約 1, 000 倍の大きさになります。これは、モデルが数十から数百メガバイトになる他の AI ユースケースにも当てはまります。これらのモデルはウェブサイト間で共有されないため、各サイトはページの読み込み時にモデルをダウンロードする必要があります。これは、デベロッパーとユーザーにとって現実的ではありません。
Google は、大規模言語モデル(LLM)などの AI モデルをブラウザに直接統合するように設計されたウェブ プラットフォーム API とブラウザ機能を開発しています。これには、Gemini ファミリーの LLM の最も効率的なバージョンである Gemini Nano が含まれます。これは、ほとんどの最新のデスクトップ パソコンとノートパソコンでローカルに実行するように設計されています。AI が組み込まれているため、ウェブサイトやウェブ アプリケーションは、独自の AI モデルをデプロイまたは管理しなくても、AI を活用したタスクを実行できます。
組み込み AI のメリット、Google の実装計画、このテクノロジーを活用する方法について説明します。
早期プレビューを入手する
Google は、API の設計、ユースケースの実現、標準化に関する他のブラウザ ベンダーとの協議に役立てるために、皆様のご意見を必要としています。
早期プレビュー プログラムに参加して、初期段階の組み込み AI のアイデアについてフィードバックを提供し、ローカル プロトタイピングを通じて開発中の API をテストする機会を見つけましょう。
新しい API が利用可能になったときに通知を受け取るには、Chrome AI デベロッパー向け公開お知らせグループに参加してください。
ウェブ デベロッパー向けの組み込み AI のメリット
AI が組み込まれているブラウザは、基盤モデルとエキスパートモデルを提供して管理します。
独自のクライアントサイド AI を構築する場合と比較して、組み込み AI には次のような利点があります。
- デプロイの容易さ: ブラウザはモデルを配信する際に、デバイスの機能を考慮し、モデルの更新を管理します。つまり、ネットワーク経由で大規模なモデルをダウンロードまたは更新する責任はありません。ストレージの強制排除、ランタイム メモリ バジェット、サービング コストなどの課題を解決する必要はありません。
- ハードウェア アクセラレーションへのアクセス: ブラウザの AI ランタイムは、GPU、NPU、CPU にフォールバックするなど、利用可能なハードウェアを最大限に活用するように最適化されています。そのため、アプリは各デバイスで最高のパフォーマンスを発揮できます。
クライアントサイドで実行するメリット
AI を組み込んだアプローチでは、クライアントサイドで AI タスクを実行するのが簡単になります。これにより、次のようなメリットがもたらされます。
- 機密データのローカル処理: クライアントサイド AI はプライバシー保護に役立ちます。たとえば、機密データを扱う場合は、エンドツーエンドの暗号化を使用してユーザーに AI 機能を提供できます。
- 高速なユーザー エクスペリエンス: サーバーへのラウンドトリップを回避することで、ほぼ即時の結果を提供できる場合があります。クライアントサイド AI は、実用的な機能と最適でないユーザー エクスペリエンスの違いを生む可能性があります。
- AI へのアクセスの拡大: ユーザーのデバイスは、処理負荷の一部を肩代わりすることで、より多くの機能にアクセスできます。たとえば、プレミアム AI 機能を提供している場合は、クライアントサイド AI でこれらの機能をプレビューして、追加費用なしで潜在顧客にプロダクトのメリットをアピールできます。このハイブリッド アプローチは、特に頻繁に使用されるユーザーフローにおいて、推論コストを管理するのにも役立ちます。
- オフライン AI の使用: ユーザーは、インターネットに接続していなくても AI 機能にアクセスできます。つまり、サイトとウェブアプリは、オフラインでも、接続が不安定な場合でも、想定どおりに動作します。
ハイブリッド AI: クライアントサイドとサーバーサイド
クライアントサイド AI はさまざまなユースケースに対応できますが、サーバーサイドのサポートが必要なユースケースもあります。
サーバーサイド AI は、大規模なモデルに適しており、幅広いプラットフォームとデバイスをサポートできます。
次に応じて、ハイブリッド アプローチを検討できます。
- 複雑さ: 具体的で取り組みやすいユースケースは、オンデバイス AI でサポートしやすいです。複雑なユースケースの場合は、サーバーサイドの実装を検討してください。
- 復元力: デフォルトではサーバーサイドを使用します。デバイスがオフラインの場合や接続が不安定な場合は、オンデバイスを使用します。
- 正常なフォールバック: AI を組み込んだブラウザの導入には時間がかかり、一部のモデルは利用できない場合があります。また、古いデバイスや性能の低いデバイスでは、すべてのモデルを最適に実行するためのハードウェア要件を満たしていない場合があります。そのようなユーザーにサーバーサイド AI を提供します。
Gemini モデルの場合は、バックエンド統合(Python、Go、Node.js、REST を使用)を使用するか、新しい Google AI client SDK for Web を使用してウェブ アプリケーションに実装できます。
ブラウザのアーキテクチャと API
Chrome に組み込み AI をサポートするため、オンデバイス実行用の基盤モデルとエキスパートモデルにアクセスするインフラストラクチャを構築しました。このインフラストラクチャは、文書作成サポートなどの革新的なブラウザ機能にすでに活用されています。
組み込みの AI 機能には、Translator API や Summarizer API などのタスク API を使用してアクセスできます。タスク API は、割り当てに最適なモデルに対して推論を実行するように設計されています。
Chrome では、これらの API は、ファインチューニングまたはエキスパート モデルを使用して Gemini Nano に対して推論を実行するように構築されています。ほとんどの最新デバイスでローカルに実行するように設計された Gemini Nano は、要約、言い換え、分類など、言語関連のユースケースに最適です。
また、Prompt API などの探索 API も提供されているため、ローカルでテストして、追加のユースケースを共有できます。
今後、モデルの重みを調整して組み込みモデルのパフォーマンスを向上させる探索ツールの LoRA API が提供される可能性があります。
組み込み AI を使用する場合
組み込み AI がクリエイターとユーザーにもたらすメリットをいくつかご紹介します。
- AI を活用したコンテンツの利用: 要約、翻訳、分類、特徴付け、ナレッジ プロバイダなど。
- AI を活用したコンテンツ作成: 文章作成の補助、校正、文法の修正、言い換えなど。
次のステップ
組み込み AI API のいくつかは、オリジン トライアルでテストできます。探索 API などの初期段階の API は、早期プレビュー プログラムの参加者が利用できます。
ウェブサイトやウェブアプリで Google のサーバーで Gemini Pro を使用する方法については、Google AI JavaScript SDK のクイックスタートをご覧ください。