WebGPU の新機能(Chrome 120)

François Beaufort
François Beaufort

WGSL での 16 ビット浮動小数点値のサポート

WGSL の f16は、IEEE-754 binary16(半精度)形式の 16 ビット浮動小数点値のセットです。つまり、従来の単精度浮動小数点数(f32)の 32 ビットに対して、浮動小数点数を表現するために 16 ビットを使用します。このようにサイズが小さくなると、特に大量のデータを処理する場合に、パフォーマンスが大幅に向上する可能性があります。

比較すると、Apple M1 Pro デバイスでは、WebLLM チャットのデモで使用される Llama2 7B モデルf16 実装は f32 実装よりも大幅に速く、次のスクリーンショットに示すように事前入力速度が 28%、デコード速度が 41% 向上しています。

f32 および f16 Llama2 7B モデルを使用した WebLLM チャットのデモのスクリーンショット。
f32(左)と f16(右)の Llama2 7B モデルを使用した WebLLM チャットのデモ。

すべての GPU が 16 ビットの浮動小数点値をサポートしているわけではありません。GPUAdapter"shader-f16" 機能が利用できる場合、この機能を含む GPUDevice をリクエストし、半精度浮動小数点型 f16 を利用する WGSL シェーダー モジュールを作成できるようになりました。このタイプは、enable f16;f16 WGSL 拡張機能を有効にしている場合にのみ、WGSL シェーダー モジュールで使用できます。それ以外の場合は、createShaderModule() によって検証エラーが生成されます。次の最小限の例と issue dawn:1510 をご覧ください。

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

次のスニペットに示すように、"shader-f16" 機能のサポートに応じて、WGSL シェーダー モジュール コードでは aliasf16 型と f32 型の両方をサポートできます。

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

限界に挑戦

デフォルトでは、レンダリング パイプライン出力データの 1 つのサンプル(ピクセルまたはサブピクセル)を保持するために必要な最大バイト数は、すべてのカラー アタッチメントで 32 バイトです。maxColorAttachmentBytesPerSample の上限を使用して、64 個までリクエストできるようになりました。次の例と issue dawn:2036 をご覧ください。

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

ステージ間通信に使用される maxInterStageShaderVariablesmaxInterStageShaderComponents の上限が、すべてのプラットフォームで引き上げられました。詳しくは、issue dawn:1448 をご覧ください。

各シェーダー ステージで、パイプライン レイアウト(ストレージ バッファ)全体のバインド グループ レイアウト エントリの最大数は、デフォルトでは 8 です。maxStorageBuffersPerShaderStage の上限を使用して、10 個までリクエストできるようになりました。issue dawn:2159 をご覧ください。

maxBindGroupsPlusVertexBuffers の新しい上限が追加されました。これは、同時に使用されるバインド グループと頂点バッファ スロットの最大数で構成され、最も高いインデックスを下回る空のスロットをカウントします。デフォルト値は 24 です。issue dawn:1849 をご覧ください。

奥行きステンシルの状態の変更

デベロッパー エクスペリエンスを向上させるため、深度ステンシルの状態の depthWriteEnabled 属性と depthCompare 属性が不要になりました。depthWriteEnabled は奥行きのあるフォーマットでのみ必須で、奥行きのあるフォーマットでは、使用しない場合の depthCompare は不要です。issue dawn:2132 をご覧ください。

アダプタ情報の更新

ユーザーが chrome://flags/#enable-webgpu-developer-features で「WebGPU デベロッパー機能」フラグを有効にしている場合に、requestAdapterInfo() を呼び出すと、標準以外の typebackend のアダプタ情報属性を利用できるようになりました。type には、「Discrete GPU」、「integrated GPU」、「CPU」、「unknown」のいずれかを指定できます。backend は、「WebGPU」、「D3D11」、「D3D12」、「metal」、「vulkan」、「openGL」、「openGLES」、「null」のいずれかです。issue dawn:2112issue dawn:2107 をご覧ください。

バックエンドとアダプタ情報を入力する https://webgpureport.org のスクリーンショット。
https://webgpureport.org に表示されるアダプタ情報のバックエンドとタイプ。

requestAdapterInfo() のオプション unmaskHints リスト パラメータが削除されました。Issue dawn:1427 をご覧ください。

タイムスタンプ クエリの量子化

タイムスタンプ クエリを使用すると、アプリケーションでナノ秒単位の精度で GPU コマンドの実行時間を測定できます。ただし、WebGPU の仕様では、タイミング攻撃への懸念から、タイムスタンプ クエリの使用は任意となっています。Chrome チームは、タイムスタンプ クエリの量子化によって、解像度を 100 マイクロ秒に下げることで、精度とセキュリティの適切な妥協点が得られると考えています。issue dawn:1800 をご覧ください。

Chrome では、chrome://flags/#enable-webgpu-developer-features で「WebGPU Developer Features」フラグを有効にすると、タイムスタンプ量子化を無効にできます。このフラグだけでは "timestamp-query" 機能は有効になりません。その実装はまだ試験運用版であるため、chrome://flags/#enable-unsafe-webgpu で「安全でない WebGPU サポート」フラグが必要です。

Dawn では、「timestamp_quantization」という新しいデバイス切り替えが追加され、デフォルトで有効になっています。次のスニペットは、デバイスをリクエストするときに、試験運用版の「timestamp-query」機能をタイムスタンプ量子化なしで許可する方法を示しています。

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

大掃除機能

試験運用版の「timestamp-query-inside-passes」機能の名前を「chromium-experimental-timestamp-query-inside-passes」に変更し、この機能が試験運用版であり、現時点では Chromium ベースのブラウザでのみ使用できることをデベロッパーに明確に示します。issue dawn:1193 をご覧ください。

試験運用版の「pipeline-statistics-query」機能は、部分的にしか実装されていませんでしたが、開発されなくなったため削除されました。問題 chromium:1177506 をご覧ください。

ここでは、重要なハイライトの一部についてのみ説明します。commit の完全なリストを確認する。

WebGPU の新機能

WebGPU の新機能シリーズで取り上げたすべての内容のリストです。

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Chrome 121

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Chrome 115

Chrome 114

Chrome 113