ウェブ AI は過去 1 年間で大きく変化しました。I/O 2024 では、次世代のウェブアプリ向けの新しいモデル、ツール、API について講演しました。
Web AI は、デバイスの CPU または GPU で実行されるウェブブラウザのクライアントサイドで機械学習(ML)モデルを使用する一連のテクノロジーと手法です。これは、JavaScript やその他のウェブ テクノロジー(WebAssembly や WebGPU など)で構築できます。これは、モデルがサーバーで実行され、API でアクセスされるサーバーサイド AI や「クラウド AI」とは異なります。
このセッションでは、次のことを共有しました。
- 新しい大規模言語モデル(LLM)をブラウザで実行する方法と、モデルをクライアントサイドで実行することの影響。
- Visual Blocks の今後の展望: プロトタイプをより迅速に作成
- また、ウェブデベロッパーが Chrome で JavaScript を使用して、大規模なウェブ AI を操作する方法についても説明します。
ブラウザの LLM
Gemma Web は、Gemini の作成に使用されたものと同じ研究と技術に基づいて構築された、ユーザーのデバイスのブラウザで実行できる Google の新しいオープンモデルです。
LLM をデバイス上に配置することで、推論のためにクラウド サーバーで実行する場合と比較して、大幅な費用削減の可能性があり、ユーザーのプライバシーが強化され、レイテンシが短縮されます。ブラウザでの生成 AI はまだ初期段階ですが、ハードウェアの進歩(CPU と GPU RAM の増加)に伴い、利用可能なモデルが増えることが予想されます。
企業は、ウェブページでできることを再考できます。特に、タスク固有のユースケースでは、小規模な LLM の重み(20 億~ 80 億のパラメータ)を調整してコンシューマ ハードウェアで実行できます。
Gemma 2B は Kaggle Models からダウンロードできます。Web LLM 推論 API と互換性のある形式で提供されます。サポートされているその他のアーキテクチャには、Microsoft Phi-2、Falcon RW 1B、Stable LM 3B などがあります。これらのアーキテクチャは、コンバータ ライブラリを使用して、ランタイムで使用できる形式に変換できます。
Visual Blocks でプロトタイプを迅速に作成する
Google は Hugging Face と連携して、Visual Blocks 用に 16 個の新しいカスタムノードを作成しました。これにより、Transformers.js と幅広い Hugging Face エコシステムが Visual Blocks に導入されます。
これらの新しいノードのうち 8 つは、Web AI を使用して完全にクライアントサイドで実行されます。以下に例を示します。
また、Hugging Face には 7 つのサーバーサイド ML タスクがあり、Visual Blocks の API を使用して数千ものモデルを実行できます。Hugging Face Visual Blocks コレクションをご覧ください。
Chrome で JavaScript を使用してウェブ AI を大規模に活用する
Gemma などの以前のインスタンスでは、モデルはウェブページ自体内で読み込まれ、実行されます。Chrome では、組み込みのオンデバイス AI の開発に取り組んでいます。これにより、標準化されたタスク固有の JavaScript API を使用してモデルにアクセスできるようになります。
これだけではありません。Chrome では、16 ビットの浮動小数点値をサポートするように WebGPU も更新されています。
WebAssembly には、64 ビット メモリ インデックスをサポートする新しいプロポーザル Memory64 があります。これにより、以前よりも大きな AI モデルを読み込むことができます。
ヘッドレス Chrome でウェブ AI モデルのテストを始める
サーバーサイド GPU(NVIDIA T4 や P100 など)を使用してアクセラレーションを行いながら、Headless Chrome を使用してクライアントサイド AI(または WebGL や WebGPU のサポートが必要なアプリケーション)をテストできるようになりました。詳細:
作成した作品を共有する際は、#WebAI を追加して、より多くのコミュニティが作品を見られるようにしてくださいね。調査結果や提案を X、LinkedIn、またはお好みのソーシャル プラットフォームで共有します。