Novità di WebGPU (Chrome 120)

François Beaufort
François Beaufort

Supporto per valori in virgola mobile a 16 bit in WGSL

In WGSL, il tipo f16 corrisponde all'insieme di valori in virgola mobile a 16 bit del formato binario 16 (mezza precisione) dello IEEE-754. Significa che utilizza 16 bit per rappresentare un numero in virgola mobile, anziché 32 bit per l'uso convenzionale della virgola mobile a precisione singola (f32). Queste dimensioni ridotte possono portare a significativi miglioramenti delle prestazioni, soprattutto durante l'elaborazione di grandi quantità di dati.

Per fare un confronto, su un dispositivo Apple M1 Pro, l'implementazione f16 dei modelli Lama2 7B utilizzati nella demo della chat WebLLM è molto più veloce rispetto all'implementazione f32, con un miglioramento del 28% della velocità di precompilazione e un miglioramento del 41% della velocità di decodifica, come mostrato negli screenshot seguenti.

Screenshot delle demo in chat WebLLM con i modelli f32 e f16 Llama2 7B.
Demo della chat WebLLM con i modelli Llama2 7B f32 (sinistra) e f16 (destra).

Non tutte le GPU supportano valori in virgola mobile a 16 bit. Quando la funzionalità "shader-f16" è disponibile in GPUAdapter, ora puoi richiedere un GPUDevice con questa funzionalità e creare un modulo Shader WGSL che sfrutta il tipo a virgola mobile a mezza precisione f16. Questo tipo è valido per l'utilizzo nel modulo Shader WGSL solo se abiliti l'estensione WGSL f16 con enable f16;. In caso contrario, createShaderModule() genererà un errore di convalida. Vedi l'esempio minimo che segue e issue dawn:1510.

const adapter = await navigator.gpu.requestAdapter();
if (!adapter.features.has("shader-f16")) {
  throw new Error("16-bit floating-point value support is not available");
}
// Explicitly request 16-bit floating-point value support.
const device = await adapter.requestDevice({
  requiredFeatures: ["shader-f16"],
});

const code = `
  enable f16;

  @compute @workgroup_size(1)
  fn main() {
    const c : vec3h = vec3<f16>(1.0h, 2.0h, 3.0h);
  }
`;

const shaderModule = device.createShaderModule({ code });
// Create a compute pipeline with this shader module
// and run the shader on the GPU...

È possibile supportare sia i tipi f16 che f32 nel codice del modulo del modulo Shader WGSL con un alias in base al supporto delle funzionalità "shader-f16", come mostrato nello snippet seguente.

const adapter = await navigator.gpu.requestAdapter();
const hasShaderF16 = adapter.features.has("shader-f16");

const device = await adapter.requestDevice({
  requiredFeatures: hasShaderF16 ? ["shader-f16"] : [],
});

const header = hasShaderF16
  ? `enable f16;
     alias min16float = f16;`
  : `alias min16float = f32;`;

const code = `
  ${header}

  @compute @workgroup_size(1)
  fn main() {
    const c = vec3<min16float>(1.0, 2.0, 3.0);
  }
`;

Supera i limiti

Per impostazione predefinita, il numero massimo di byte necessari per contenere un campione (pixel o sottopixel) di dati di output della pipeline di rendering, su tutti gli allegati dei colori, è di 32 byte. Ora è possibile richiederne fino a 64 utilizzando il limite di maxColorAttachmentBytesPerSample. Vedi l'esempio seguente e issue dawn:2036.

const adapter = await navigator.gpu.requestAdapter();

if (adapter.limits.maxColorAttachmentBytesPerSample < 64) {
  // When the desired limit isn't supported, take action to either fall back to
  // a code path that does not require the higher limit or notify the user that
  // their device does not meet minimum requirements.
}

// Request highest limit of max color attachments bytes per sample.
const device = await adapter.requestDevice({
  requiredLimits: { maxColorAttachmentBytesPerSample: 64 },
});

I limiti relativi a maxInterStageShaderVariables e maxInterStageShaderComponents utilizzati per la comunicazione tra le fasi sono stati aumentati su tutte le piattaforme. Per informazioni dettagliate, vedi issue dawn:1448.

Per ogni fase dello Shader, il numero massimo di voci di layout di gruppi di associazioni in un layout della pipeline che sono buffer di archiviazione è 8 per impostazione predefinita. Ora è possibile richiederne fino a 10 utilizzando il limite di maxStorageBuffersPerShaderStage. Vedi issue dawn:2159.

È stato aggiunto un nuovo limite di maxBindGroupsPlusVertexBuffers. È costituito dal numero massimo di slot del gruppo di associazioni e del buffer del vertice utilizzati contemporaneamente, contando gli slot vuoti al di sotto dell'indice più alto. Il suo valore predefinito è 24. Vedi issue dawn:1849.

Modifiche allo stato dello stencil di profondità

Per migliorare l'esperienza degli sviluppatori, gli attributi dello stato Depth-stencil depthWriteEnabled e depthCompare non sono sempre obbligatori: depthWriteEnabled è obbligatorio solo per i formati con profondità e depthCompare non è obbligatorio per i formati con profondità se non viene utilizzato affatto. Vedi issue dawn:2132.

Aggiornamenti delle informazioni sull'adattatore

Gli attributi delle informazioni sull'adattatore type e backend non standard sono ora disponibili alla chiamata di requestAdapterInfo() quando l'utente ha attivato il flag "Funzionalità per sviluppatori WebGPU" all'indirizzo chrome://flags/#enable-webgpu-developer-features. type può essere "GPU discreta", "GPU integrata", "CPU" o "sconosciuto". backend può essere "WebGPU", "D3D11", "D3D12", "metal", "vulkan", "openGL", "openGLES" o "null". Vedi issue dawn:2112 e issue dawn:2107.

Screenshot https://webgpureport.org con il backend e digitare le informazioni sull&#39;adattatore.
Tipo e backend delle informazioni sull'adattatore mostrati su https://webgpureport.org.

Il parametro facoltativo dell'elenco unmaskHints in requestAdapterInfo() è stato rimosso. Vedi issue dawn:1427.

Quantizzazione delle query di timestamp

Le query di timestamp consentono alle applicazioni di misurare il tempo di esecuzione dei comandi della GPU con una precisione in nanosecondi. Tuttavia, la specifica WebGPU rende le query dei timestamp facoltative a causa di problemi di attacco a tempo. Il team di Chrome ritiene che la quantificazione delle query di timestamp offra un buon compromesso tra precisione e sicurezza, poiché riduce la risoluzione a 100 microsecondi. Vedi issue dawn:1800.

In Chrome, gli utenti possono disattivare la quantizzazione del timestamp attivando il flag "Funzionalità per sviluppatori WebGPU" all'indirizzo chrome://flags/#enable-webgpu-developer-features. Tieni presente che questo flag da solo non attiva la funzionalità "timestamp-query". La sua implementazione è ancora sperimentale e pertanto richiede il flag "Unsafe WebGPU Support" (Assistenza WebGPU non sicura) all'indirizzo chrome://flags/#enable-unsafe-webgpu.

In Dawn è stato aggiunto un nuovo pulsante di attivazione/disattivazione dei dispositivi chiamato "timestamp_quantization", che è abilitato per impostazione predefinita. Il seguente snippet mostra come consentire la funzionalità sperimentale "timestamp-query" senza quantificazione del timestamp quando richiedi un dispositivo.

wgpu::DawnTogglesDescriptor deviceTogglesDesc = {};

const char* allowUnsafeApisToggle = "allow_unsafe_apis";
deviceTogglesDesc.enabledToggles = &allowUnsafeApisToggle;
deviceTogglesDesc.enabledToggleCount = 1;

const char* timestampQuantizationToggle = "timestamp_quantization";
deviceTogglesDesc.disabledToggles = &timestampQuantizationToggle;
deviceTogglesDesc.disabledToggleCount = 1;

wgpu::DeviceDescriptor desc = {.nextInChain = &deviceTogglesDesc};

// Request a device with no timestamp quantization.
myAdapter.RequestDevice(&desc, myCallback, myUserData);

Funzionalità per le pulizie di primavera

La funzionalità sperimentale "timestamp-query-inside-passes" è stata rinominata "chromium-experimental-timestamp-query-inside-passes" per chiarire agli sviluppatori che al momento questa funzionalità è sperimentale e disponibile solo nei browser basati su Chromium. Vedi issue dawn:1193.

La funzionalità sperimentale "pipeline-statistics-query", che è stata implementata solo parzialmente, è stata rimossa perché non è più in fase di sviluppo. Vedi issue chromium:1177506.

Vengono trattati solo alcuni dei punti salienti. Consulta l'elenco completo dei commit.

Novità di WebGPU

Un elenco di tutti gli argomenti trattati nella serie Novità di WebGPU.

Chrome 125

Chrome 124

Chrome 123

Chrome 122

Guida introduttiva di Chrome

Chrome 120

Chrome 119

Chrome 118

Chrome 117

Chrome 116

Versione 115 di Chrome

Chrome 114

Chrome 113