本部分介绍了 CrUX 如何收集和整理用户体验数据。
资格要求
CrUX 数据集的核心是单个用户体验,这些体验已汇总为网页级和源级分布。本部分记录了用户资格条件以及要在数据集中包含的页面和源需满足的要求。网页级数据必须满足以下条件才能被纳入 PageSpeed Insights 和 CrUX API 提供的网页级数据中:用户、来源和网页。符合“用户”和“来源”条件但不符合“网页”条件的体验不会包含在所有 CrUX 数据源提供的来源级数据中。
如果网页和源的资格随着时间推移而发生变化,系统会自动在数据集中添加或从中移除这些页面和源。目前,您无法手动提交要收录的网页或源站。
可公开发现
网页必须可公开发现,才会考虑纳入 CrUX 数据集。
系统使用与搜索引擎相同的索引编制便利性条件将网页确定为可公开发现。
如果满足以下任一条件(包括源数据集的根页面),则页面无法满足可检测性要求:
- 相应网页返回时,系统显示 HTTP 状态代码,而非
200
(重定向后)。 - 该页面使用 HTTP
X-Robots-Tag: noindex
标头或等效项提供。 - 该文档包含
<meta name="robots" content="noindex">
元标记或等效项。
如需简要了解您网站的索引编制状态,请参阅 Google Search Console。
相当受欢迎
如果某个网页的访问者数量达到最低数量,它就会被认定为足够热门。如果某个来源的所有网页的访问者数量都达到最低数量,该来源即被判定为足够热门。确切数字不会披露,但经过选定,这可以确保我们有足够的样本,能够准确判断所包含网页的统计分布情况。网页数和源站的字符数下限相同。
未达到热门程度阈值的网页和来源不会纳入 CrUX 数据集中。
原点
源 代表可通过 https://www.example.com
等网址寻址的整个网站。若想将某个来源添加到 CrUX 数据集中,它必须满足以下两项要求:
您可以运行 Lighthouse 审核并查看 SEO 类别结果,验证您的源是否可被发现。如果您的根网页未能通过网页已被禁止编入索引或网页包含失败的 HTTP 状态代码审核,则无法发现您的网站。
如果某个来源被确定为可公开发现,则无论单个网页的可检测性如何,该来源的所有网页上符合条件的用户体验都会在来源级别汇总。所有这些体验都会计入来源的受欢迎程度要求。
为便于查询,请注意 CrUX 数据集中的所有源站均为小写。
网页
CrUX 数据集中包含网页的要求与源站相同:
您可以运行 Lighthouse 审核并查看 SEO 类别结果,验证该网页是否可发现。如果您的网页未通过网页已被阻止编入索引或网页包含失败的 HTTP 状态代码审核,则无法发现。
如果网页对某些用户可公开发现,但在某些情况下返回失败 HTTP 状态,则这些体验不会包含在 CrUX 中。
网页网址中通常包含其他标识符,包括查询字符串参数(例如 ?utm_medium=email
)和片段(例如 #main
)。这些标识符会从 CrUX 数据集的网址中删除,以便网页上的所有用户体验汇总在一起。如果同一网页有许多独立的网址变体,进而无法达到热门程度阈值,则此功能会非常有用。请注意,在极少数情况下,这可能会意外将不同网页的体验组合到一起;例如,当参数 ?productID=101
和 ?productID=102
表示不同的网页时。
CrUX 中的页面根据顶级页面进行衡量。作为 iframe 包含在内的网页不会在 CrUX 中单独报告,但确实会影响顶级网页的指标。例如,如果 https://www.example.com/page.html
将 https://www.example.com/frame.html
嵌入到 iframe 中,那么 page.html
会在 CrUX 中表示(须遵守其他资格条件),而 frame.html
不会表示。如果 frame.html
的 CLS 较低,则在衡量 page.html
的 CLS 时将包含 CLS。CrUX 是 Chrome 用户体验报告,用户甚至可能不知道这是一个 iframe。因此,我们将根据用户看到的顶级页面来衡量相应体验。
网站的架构可能会使其数据在 CrUX 中的表示方式复杂化。例如,与传统的基于锚点的网页导航不同,单页应用 (SPA) 可能会使用基于 JavaScript 的“路线转换”方案在页面之间移动。对用户而言,这些过渡效果会显示为新的网页浏览,但对于 Chrome 和底层平台 API,整个体验都会归功于初始网页浏览。这是构建 CrUX 所使用的 Web 平台 API 的限制。如需了解详情,请参阅 web.dev 上的 SPA 架构对核心网页指标的影响。
用户
为了让用户将自己的体验汇总到 CrUX 数据集中,他们必须满足以下条件:
- 启用使用情况统计信息报告。
- 同步用户的浏览器历史记录。
- 未设置同步密码。
- 使用受支持的平台。
目前支持的平台包括:
以下几项值得注意的例外情况不会向 CrUX 数据集提供数据:
- Chrome(iOS 版)。
- 使用 WebView 的 Android 应用。
- 其他 Chromium 浏览器(例如 Microsoft Edge)。
Chrome 无法发布与符合这些条件的用户比例相关的数据。您可以参阅 Chrome 隐私权白皮书,详细了解我们会收集的数据。
Accelerated Mobile Pages (AMP)
与任何其他网页一样,使用 AMP 构建的网页会包含在 CrUX 数据集中。自 2020 年 6 月的 CrUX 版本开始,系统还会捕获使用 AMP 缓存提供的网页和 / 或通过 AMP 查看器呈现的网页,并将其归因于发布商的网页网址。
数据质量
系统会对 CrUX 中的数据进行少量处理,以确保其统计准确性、结构良好且更易于查询。
过滤
我们会对 CrUX 数据集进行过滤,以确保提供的数据在统计上有效。这可能会排除整个网页或源站,使其不会显示在数据集内。
除了对源和网页应用的资格条件外,系统还会对数据中的细分受众群应用进一步的过滤:
如果来源或网页因维度组合不符合条件而被排除的总流量超过总流量的 20%,则会从数据集中完全排除。
由于全球级数据集涵盖所有国家/地区的用户体验,因此只要热门程度足够高,不符合国家/地区级热门程度标准的维度组合可能仍会包含在全球级。
模糊测试
系统会对数据集应用少量的随机性值,以防止对敏感数据(例如总流量)进行逆向工程。这不会影响汇总统计信息的准确性。
精确率
CrUX 数据集中的大多数指标值表示为值和分箱大小的直方图,其中直方图值是所有所含细分的总和为 1 的比例。分箱大小是介于 1.0 和 0.0001 之间的浮点数。
直方图分箱宽度已经过标准化处理,以简化数据查询和可视化。也就是说,较大的分箱可能会拆分成较小的分箱,这些分箱会均等共用原始密度,以保持一致的分箱宽度。
许可
Google 的 CrUX 数据集已获知识共享署名 4.0 国际许可授权。