WebGPU の新機能(Chrome 120)

François Beaufort
François Beaufort

WGSL での 16 ビット浮動小数点値のサポート

WGSL の f16は、IEEE-754 binary16(半精度)形式の 16 ビットの浮動小数点値のセットです。従来の単精度浮動小数点(f32)は 32 ビットであるのに対し、浮動小数点数は 16 ビットで表現されます。サイズを小さくすることで、特に大量のデータを処理する場合に、パフォーマンスが大幅に向上する可能性があります。

比較として、Apple M1 Pro デバイスでは、WebLLM チャットデモで使用されている Llama2 7B モデルf16 実装が f32 実装よりも著しく高速になり、次のスクリーンショットに示すようにプリフィル速度が 28%、デコード速度が 41% 向上しています。

<ph type="x-smartling-placeholder">
</ph> f32 および f16 Llama2 7B モデルを使用した WebLLM チャットデモのスクリーンショット。
Llama2 7B モデル f32(左)と f16(右)を使用した WebLLM チャットのデモ

すべての GPU が 16 ビット浮動小数点値をサポートしているわけではありません。GPUAdapter"shader-f16" 機能が利用できる場合、この機能で GPUDevice をリクエストし、半精度浮動小数点型 f16 を利用する WGSL シェーダー モジュールを作成できるようになりました。この型は、enable f16;f16 WGSL 拡張機能を有効にした場合にのみ、WGSL シェーダー モジュールで使用できます。そうでない場合は、createShaderModule() で検証エラーが生成されます。次の簡単な例と問題 dawn:1510 をご覧ください。

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

次のスニペットに示すように、"shader-f16" 機能のサポートに応じて、alias を使用して、WGSL シェーダー モジュール コードで f16 型と f32 型の両方をサポートできます。

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

限界に挑戦

すべてのカラー アタッチメントにわたるレンダリング パイプライン出力データの 1 つのサンプル(ピクセルまたはサブピクセル)を保持するために必要な最大バイト数は、デフォルトで 32 バイトです。maxColorAttachmentBytesPerSample の上限を使用して、最大 64 個までリクエストできるようになりました。次の例と問題 dawn:2036 をご覧ください。

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

ステージ間のコミュニケーションに使用される maxInterStageShaderVariablesmaxInterStageShaderComponents の上限が、すべてのプラットフォームで引き上げられました。詳しくは、問題 dawn:1448 をご覧ください。

各シェーダー ステージで、パイプライン レイアウト全体のバインド グループ レイアウト エントリ(ストレージ バッファ)の最大数はデフォルトで 8 個です。maxStorageBuffersPerShaderStage の上限を使用して、最大 10 件までリクエストできるようになりました。問題 dawn:2159 をご覧ください。

maxBindGroupsPlusVertexBuffers の新しい上限が追加されました。同時に使用されるバインド グループと頂点バッファ スロットの最大数からなり、最も高いインデックスを下回る空のスロットをカウントします。デフォルト値は 24 です。問題 dawn:1849 をご覧ください。

深度ステンシルの状態の変更

デベロッパー エクスペリエンスを向上させるため、深度ステンシルの状態 depthWriteEnableddepthCompare の属性が必須ではなくなりました。depthWriteEnabled は、深度のある形式に対してのみ必須です。深度のある形式の場合、depthCompare は、まったく使用されない場合には必要ありません。問題 dawn:2132 をご覧ください。

アダプター情報の更新

ユーザーが「WebGPU デベロッパー機能」を有効にしている場合に requestAdapterInfo() を呼び出すと、標準以外の type および backend アダプタ情報属性を使用できるようになりました。chrome://flags/#enable-webgpu-developer-featuresフラグtype には、「独立した GPU」、「統合型 GPU」、「CPU」、「不明」のいずれかを指定できます。backend は、「WebGPU」、「D3D11」、「D3D12」、「metal」、「vulkan」、「openGL」、「openGLES」、「null」のいずれかです。問題 dawn:2112問題 dawn:2107 をご覧ください。

<ph type="x-smartling-placeholder">
</ph> バックエンドとアダプター情報の入力が表示されている https://webgpureport.org のスクリーンショット。
https://webgpureport.org に表示されるアダプター情報のバックエンドとタイプ。

requestAdapterInfo() のオプションの unmaskHints リスト パラメータが削除されました。問題 dawn:1427 をご覧ください。

タイムスタンプ クエリの量子化

タイムスタンプ クエリを使用すると、GPU コマンドの実行時間をナノ秒単位の精度で測定できます。ただし、WebGPU の仕様では、タイミング攻撃への懸念から、タイムスタンプ クエリをオプションとしています。Chrome チームは、タイムスタンプ クエリを量子化することで解像度を 100 マイクロ秒に下げることで、精度とセキュリティのバランスを取ることができると考えています。問題 dawn:1800 をご覧ください。

Chrome で「WebGPU のデベロッパー向け機能」を有効にすると、タイムスタンプの量子化を無効にできます。フラグchrome://flags/#enable-webgpu-developer-features)を入力します。このフラグだけでは "timestamp-query" 機能は有効になりません。実装はまだ試験運用版であるため、「安全でない WebGPU のサポート」が必要です。フラグ chrome://flags/#enable-unsafe-webgpu にあります。

Dawn に「timestamp_quantization」という新しいデバイス切り替えが追加されました。追加され、デフォルトで有効になっています。次のスニペットは、試験運用版の「タイムスタンプ クエリ」を許可する方法を示しています。デバイス リクエスト時にタイムスタンプの量子化がない機能を返します。

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

大掃除機能

試験運用版の「timestamp-query-inside-passes」機能の名前を「chromium-experimental-timestamp-query-inside-passes」に変更しました。。問題 dawn:1193 をご覧ください。

試験運用版の「pipeline-statistics-query」機能は一部実装されましたが、開発が終了したため削除されました。問題 chromium:1177506 をご覧ください。

ここでは、主なハイライトの一部のみを取り上げています。コミットの一覧をご確認ください。

WebGPU の新機能

WebGPU の新機能」シリーズに記載されている全内容のリスト。

Chrome 128

Chrome 127

Chrome 126

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Chrome 121

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Chrome 115

Chrome 114

Chrome 113