WGSL での 16 ビット浮動小数点値のサポート
WGSL の f16
型は、IEEE-754 binary16(半精度)形式の 16 ビットの浮動小数点値のセットです。従来の単精度浮動小数点(f32
)は 32 ビットであるのに対し、浮動小数点数は 16 ビットで表現されます。サイズを小さくすることで、特に大量のデータを処理する場合に、パフォーマンスが大幅に向上する可能性があります。
比較として、Apple M1 Pro デバイスでは、WebLLM チャットデモで使用されている Llama2 7B モデルの f16
実装が f32
実装よりも著しく高速になり、次のスクリーンショットに示すようにプリフィル速度が 28%、デコード速度が 41% 向上しています。
すべての GPU が 16 ビット浮動小数点値をサポートしているわけではありません。GPUAdapter
で "shader-f16"
機能が利用できる場合、この機能で GPUDevice
をリクエストし、半精度浮動小数点型 f16
を利用する WGSL シェーダー モジュールを作成できるようになりました。この型は、enable f16;
で f16
WGSL 拡張機能を有効にした場合にのみ、WGSL シェーダー モジュールで使用できます。そうでない場合は、createShaderModule() で検証エラーが生成されます。次の簡単な例と問題 dawn:1510 をご覧ください。
const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
requiredFeatures: ["shader-f16"],
});
const code = `
enable f16;
@compute @workgroup_size(1)
fn main() {
const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
}
`;
const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...
次のスニペットに示すように、"shader-f16"
機能のサポートに応じて、alias
を使用して、WGSL シェーダー モジュール コードで f16
型と f32
型の両方をサポートできます。
const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");
const device = await adapter.requestDevice({
requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});
const header = hasShaderF16
? `enable f16;
alias min16float = f16;`
: `alias min16float = f32;`;
const code = `
${header}
@compute @workgroup_size(1)
fn main() {
const c = vec3<min16float>(1.0, 2.0, 3.0);
}
`;
限界に挑戦
すべてのカラー アタッチメントにわたるレンダリング パイプライン出力データの 1 つのサンプル(ピクセルまたはサブピクセル)を保持するために必要な最大バイト数は、デフォルトで 32 バイトです。maxColorAttachmentBytesPerSample
の上限を使用して、最大 64 個までリクエストできるようになりました。次の例と問題 dawn:2036 をご覧ください。
const adapter = await navigator.gpu.requestAdapter();
if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
// When the desired limit isn't supported, take action to either fall back to
// a code path that does not require the higher limit or notify the user that
// their device does not meet minimum requirements.
}
// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});
ステージ間のコミュニケーションに使用される maxInterStageShaderVariables
と maxInterStageShaderComponents
の上限が、すべてのプラットフォームで引き上げられました。詳しくは、問題 dawn:1448 をご覧ください。
各シェーダー ステージで、パイプライン レイアウト全体のバインド グループ レイアウト エントリ(ストレージ バッファ)の最大数はデフォルトで 8 個です。maxStorageBuffersPerShaderStage
の上限を使用して、最大 10 件までリクエストできるようになりました。問題 dawn:2159 をご覧ください。
maxBindGroupsPlusVertexBuffers
の新しい上限が追加されました。同時に使用されるバインド グループと頂点バッファ スロットの最大数からなり、最も高いインデックスを下回る空のスロットをカウントします。デフォルト値は 24 です。問題 dawn:1849 をご覧ください。
深度ステンシルの状態の変更
デベロッパー エクスペリエンスを向上させるため、深度ステンシルの状態 depthWriteEnabled
と depthCompare
の属性が必須ではなくなりました。depthWriteEnabled
は、深度のある形式に対してのみ必須です。深度のある形式の場合、depthCompare
は、まったく使用されない場合には必要ありません。問題 dawn:2132 をご覧ください。
アダプター情報の更新
ユーザーが「WebGPU デベロッパー機能」を有効にしている場合に requestAdapterInfo() を呼び出すと、標準以外の type
および backend
アダプタ情報属性を使用できるようになりました。chrome://flags/#enable-webgpu-developer-features
のフラグ。type
には、「独立した GPU」、「統合型 GPU」、「CPU」、「不明」のいずれかを指定できます。backend
は、「WebGPU」、「D3D11」、「D3D12」、「metal」、「vulkan」、「openGL」、「openGLES」、「null」のいずれかです。問題 dawn:2112 と問題 dawn:2107 をご覧ください。
requestAdapterInfo() のオプションの unmaskHints
リスト パラメータが削除されました。問題 dawn:1427 をご覧ください。
タイムスタンプ クエリの量子化
タイムスタンプ クエリを使用すると、GPU コマンドの実行時間をナノ秒単位の精度で測定できます。ただし、WebGPU の仕様では、タイミング攻撃への懸念から、タイムスタンプ クエリをオプションとしています。Chrome チームは、タイムスタンプ クエリを量子化することで解像度を 100 マイクロ秒に下げることで、精度とセキュリティのバランスを取ることができると考えています。問題 dawn:1800 をご覧ください。
Chrome で「WebGPU のデベロッパー向け機能」を有効にすると、タイムスタンプの量子化を無効にできます。フラグ(chrome://flags/#enable-webgpu-developer-features
)を入力します。このフラグだけでは "timestamp-query"
機能は有効になりません。実装はまだ試験運用版であるため、「安全でない WebGPU のサポート」が必要です。フラグ chrome://flags/#enable-unsafe-webgpu
にあります。
Dawn に「timestamp_quantization」という新しいデバイス切り替えが追加されました。追加され、デフォルトで有効になっています。次のスニペットは、試験運用版の「タイムスタンプ クエリ」を許可する方法を示しています。デバイス リクエスト時にタイムスタンプの量子化がない機能を返します。
wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};
const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;
const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = ×tampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;
wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};
// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);
大掃除機能
試験運用版の「timestamp-query-inside-passes」機能の名前を「chromium-experimental-timestamp-query-inside-passes」に変更しました。。問題 dawn:1193 をご覧ください。
試験運用版の「pipeline-statistics-query」機能は一部実装されましたが、開発が終了したため削除されました。問題 chromium:1177506 をご覧ください。
ここでは、主なハイライトの一部のみを取り上げています。コミットの一覧をご確認ください。
WebGPU の新機能
「WebGPU の新機能」シリーズに記載されている全内容のリスト。
Chrome 128
- サブグループのテスト
- ラインとポイントの深度バイアス設定のサポート終了
- 未キャプチャ エラーの DevTools の警告を PreventDefault で非表示にする
- WGSL はまずサンプリングを補間
- 夜明けの最新情報
Chrome 127
Chrome 126
- maxTextureArrayLayers の上限を引き上げる
- Vulkan バックエンドでのバッファ アップロードの最適化
- シェーダーのコンパイル時間の改善
- 送信するコマンド バッファは一意である必要があります
- 夜明けの最新情報
Chrome 125
Chrome 124
Chrome 123
- WGSL での DP4a 組み込み関数のサポート
- WGSL の無制限のポインタ パラメータ
- WGSL で複合要素を逆参照するための糖衣構文
- ステンシル アスペクトと深度アスペクトの読み取り専用状態を分離
- 夜明けの最新情報
Chrome 122
Chrome 121
- Android で WebGPU をサポートする
- Windows でのシェーダーのコンパイルに FXC ではなく DXC を使用
- コンピューティング パスとレンダリング パスでのタイムスタンプ クエリ
- シェーダー モジュールへのデフォルトのエントリ ポイント
- GPUExternalTexture 色空間として display-p3 をサポートする
- メモリヒープ情報
- 夜明けの最新情報
Chrome 120
Chrome 119
- フィルタ可能な 32 ビット浮動小数点のテクスチャ
- unorm10-10-10-2 頂点形式
- rgb10a2uint テクスチャ形式
- 夜明けの最新情報
Chrome 118
copyExternalImageToTexture()
での HTMLImageElement と ImageData のサポート- 読み取り / 書き込みと読み取り専用のストレージ テクスチャの試験運用版サポート
- 夜明けの最新情報
Chrome 117
- 頂点バッファの設定解除
- バインド グループの設定解除
- デバイスが失われた場合の非同期パイプライン作成のエラーをミュート
- SPIR-V シェーダー モジュールの作成に関するアップデート
- デベロッパー エクスペリエンスの向上
- 自動生成されたレイアウトを使用したキャッシュ パイプライン
- 夜明けの最新情報
Chrome 116
- WebCodecs の統合
- GPUAdapter から返されたデバイスの紛失
requestDevice()
importExternalTexture()
が呼び出された場合に動画の再生をスムーズにする- 仕様の適合性
- デベロッパー エクスペリエンスの向上
- 夜明けの最新情報
Chrome 115
- サポートされている WGSL 言語の拡張機能
- Direct3D 11 の試験運用版サポート
- AC 電源でデフォルトでディスクリート GPU を取得
- デベロッパー エクスペリエンスの向上
- 夜明けの最新情報