CrUX in BigQuery

Informationen zur Strukturierung von CrUX-Daten in BigQuery

Einführung

Die Rohdaten, die dem Chrome UX Report (CrUX) zugrunde liegen, sind in BigQuery verfügbar, einer in Google Cloud gehosteten Datenbank.

Mit CrUX in BigQuery können Nutzer den vollständigen Datensatz seit 2017 direkt abfragen, um beispielsweise Trends zu analysieren, Webtechnologien zu vergleichen und Domains zu benchmarken.

Die Daten sind nach monatlichen Releases sowie nach einer Reihe von Übersichtstabellen strukturiert, die einen einfachen Zugriff für die Abfrage der Daten ermöglichen.

Die BigQuery-Daten bilden die Grundlage des CrUX-Dashboards, mit dem Sie diese Daten visualisieren können, ohne SQL-Abfragen schreiben zu müssen.

Auf Dataset zugreifen

Für die Verwendung von BigQuery sind ein Google Cloud-Konto und SQL-Grundkenntnisse erforderlich. Der CrUX-Dataset in BigQuery ist kostenlos zugänglich und kann bis zu den Limits der kostenlosen Stufe genutzt werden, die monatlich erneuert und von BigQuery bereitgestellt wird. Neue Google Cloud-Nutzer haben möglicherweise außerdem Anspruch auf ein Registrierungsguthaben, das über die kostenlose Stufe hinausgeht. Für das Google Cloud-Projekt muss eine Kreditkarte angegeben werden. Weitere Informationen finden Sie unter Warum muss ich eine Kreditkarte angeben?.

Wenn Sie BigQuery zum ersten Mal verwenden, führen Sie die folgenden Schritte aus, um ein Projekt einzurichten:

  1. Klicken Sie in der Google Cloud Console auf Projekt erstellen.
  2. Geben Sie Ihrem neuen Projekt einen Namen wie „Mein Chrome-UX-Bericht“ und klicken Sie auf „Erstellen“.
  3. Geben Sie Ihre Zahlungsinformationen an, wenn Sie dazu aufgefordert werden.
  4. Rufen Sie das CrUX-Dataset in BigQuery auf.

Jetzt können Sie mit dem Abfragen des Datensatzes beginnen.

Projektorganisation

CrUX-Daten in BigQuery werden am zweiten Dienstag des Folgemonats veröffentlicht. Jeder Monat wird als neue Tabelle unter chrome-ux-report.all veröffentlicht. Außerdem gibt es eine Reihe von materialisierten Tabellen mit zusammenfassenden Statistiken für jeden Monat.

Detailliertes Tabellenschema

Die Rohtabellen für jedes Land und das Dataset all werden nach Jahr und Monat bereitgestellt.

Rohtabellen

Die Rohtabellen haben das folgende Schema:

  • origin
  • effective_connection_type
  • form_factor
  • first_paint
  • first_contentful_paint
  • largest_contentful_paint
  • dom_content_loaded
  • onload
  • layout_instability
    • cumulative_layout_shift
  • interaction_to_next_paint
  • navigation_types
    • navigate
    • navigate_cache
    • reload
    • restore
    • back_forward
    • back_forward_cache
    • prerender
  • experimental
    • permission
      • notifications
    • time_to_first_byte
    • popularity

Materialisiertes Tabellenschema

Materialisierte Tabellen werden für einen einfacheren Zugriff auf Übersichtsdaten nach einer Reihe von Schlüsseldimensionen bereitgestellt. Es werden keine Histogramme bereitgestellt. Stattdessen werden Leistungsdaten nach Leistungsbewertung und dem Wert für das 75. Perzentil in Fraktionen zusammengefasst. In diesem Beispiel sind einige Beispielzeilen aus der Tabelle metrics_summary zu sehen:

yyyymm origin fast_lcp avg_lcp slow_lcp p75_lcp
202204 https://example.com 0,9056 0,0635 0,0301 1600
202203 https://example.com 0,9209 0,052 0,0274 1400
202202 https://example.com 0,9169 0,0545 0.0284 1500
202201 https://example.com 0,9072 0,0626 0,0298 1500

Das bedeutet, dass im Datensatz 202204 90,56 % der Sitzungen echter Nutzer auf https://example.com die Kriterien für einen guten LCP erfüllt haben und dass der grobe LCP-Wert des 75. Perzentils 1.600 ms betrug. Das ist etwas langsamer als in den vorherigen Monaten.

Es werden vier materialisierte Tabellen bereitgestellt:

metrics_summary
wichtige Messwerte nach Monat und Herkunft
device_summary
wichtige Messwerte nach Monat, Ursprung und Gerätetyp
country_summary
Wichtige Messwerte nach Monat, Herkunft, Gerätetyp und Land
origin_summary
eine Liste aller im Datensatz enthaltenen Ursprünge

metrics_summary

Die Tabelle metrics_summary enthält zusammenfassende Statistiken für jeden Ursprung und jedes monatliche Dataset:

yyyymm
Monat des Zeitraums der Datenerhebung
origin
URL der Website
rank
Grobes Beliebtheitsranking (Stand: März 2021)
[small|medium|large]_cls
Anteil des Traffics nach CLS-Schwellenwerten
[fast|avg|slow]_<metric>
Anteil des Traffics nach Leistungsgrenzwerten
p75_<metric>
Wert des 75. Perzentils der Leistungsmesswerte (Millisekunden)
notification_permission_[accept|deny|ignore|dismiss]
Anteil der Verhaltensweisen bei Berechtigungen zum Senden von Benachrichtigungen
[desktop|phone|tablet]Density
Anteil der Zugriffe nach Formfaktor
[_4G|_3G|_2G|slow2G|offline]Density
Anteil des Traffics nach effektivem Verbindungstyp
navigation_type_[navigate|navigate_cache|reload|restore|back_forward|back_forward_cache|prerender]
Anteil der Navigationstypen

device_summary

Die Tabelle device_summary enthält zusammengefasste Statistiken nach Monat, Herkunft, Land und Gerät. Zusätzlich zu den metrics_summary-Spalten gibt es:

device
Formfaktor des Geräts

country_summary

Die Tabelle country_summary enthält zusammengefasste Statistiken nach Monat, Herkunft, Land und Gerät. Zusätzlich zu den metrics_summary-Spalten gibt es Folgendes:

country_code
Aus zwei Buchstaben bestehender Ländercode
device
Formfaktor des Geräts

origin_summary

Die Tabelle origin_summary enthält eine Liste aller Ursprünge im CrUX-Dataset. Sie wird monatlich mit der neuesten Liste der Ursprünge im Dataset aktualisiert und hat eine einzige Spalte: origin.

Experimentelles Dataset

Die Tabellen im experimentellen Datensatz sind exakte Kopien der standardmäßigen YYYYMM-Tabellen. Sie nutzen jedoch neuere und erweiterte BigQuery-Funktionen wie Partitionierung und Clustering, mit denen Sie schnellere, einfachere und kostengünstigere Abfragen schreiben können.

country

Das Dataset experimental.country enthält aggregierte Daten aus den country_CC-Datasets mit einer zusätzlichen yyyymm-Spalte für das Dataset-Datum. Das Schema ist mit Rohtabellen identisch, enthält aber zusätzlich die Spalten „Datum“ und „country_code“. So können Sie Vergleiche auf Länderebene im Zeitverlauf ausführen, ohne die monatlichen Tabellen zusammenzuführen.

global

Das Dataset experimental.global enthält aggregierte Daten aus dem Dataset all mit einer zusätzlichen Spalte yyyymm für das Dataset-Datum. Das Schema ist bis auf das Datum identisch mit Rohtabellen und ermöglicht so Vergleichsabfragen im Zeitverlauf, ohne die monatlichen Tabellen zusammenzuführen.