robots.txt 無效

robots.txt 檔案會告訴搜尋引擎網站上有哪些網頁可供搜尋引擎存取 。無效的 robots.txt 設定可能會造成兩種問題:

  • 可以防止搜尋引擎檢索公開網頁,避免 ,降低內容在搜尋結果中的顯示頻率。
  • 這會造成搜尋引擎檢索你不想顯示在搜尋結果中的網頁 也就是預測結果

Lighthouse robots.txt 稽核失敗的原因

Lighthouse 標記無效 robots.txt 檔案:

Lighthouse 稽核顯示無效的 robots.txt

展開報表中的robots.txt無效稽核結果 ,瞭解「robots.txt」是否有任何問題。

常見錯誤包括:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse 不會檢查你的 robots.txt 檔案 放在正確的位置如要正確運作,檔案必須位於 您的網域或子網域

如何修正「robots.txt」相關問題

確認 robots.txt 不會傳回 HTTP 5XX 狀態碼

如果伺服器傳回伺服器錯誤 (HTTP 狀態碼) 500 秒內),robots.txt,搜尋引擎並無法判斷哪些網頁應該 已檢索。他們可能會停止檢索整個網站,並預防新的 將內容編入索引

如要查看 HTTP 狀態碼,請在 Chrome 中開啟 robots.txt,並 在 Chrome 開發人員工具中查看要求

保持 robots.txt 小於 500 KiB

如果檔案符合以下條件,搜尋引擎可能會停止處理 robots.txt: 大於 500 KiB否則可能會使搜尋引擎產生混淆, 檢索您的網站

為確保 robots.txt 精簡,請減少專心排除個別排除的網頁等 找出更廣泛的模式舉例來說,如要禁止 Google 檢索 PDF 檔案 不會禁止個別檔案請改為禁止含有 使用 disallow: /*.pdf.pdf

修正所有格式錯誤

  • 僅限與「name: value」相符的空白行、註解和指令格式為 允許在robots.txt刊登。
  • 確認 allowdisallow 值為空白,或是以 /* 開頭。
  • 請勿在值中間使用 $ (例如 allow: /file$html)。

請確認「user-agent」已設定值

使用者代理程式名稱,用來指示搜尋引擎檢索器要追蹤哪些指令。個人中心 必須為每個 user-agent 例項提供一個值,讓搜尋引擎知道 是否遵行相關的指令集

如要指定特定的搜尋引擎檢索器,請使用其 發布清單(舉例來說, Google 檢索使用的使用者代理程式清單)。

使用 * 比對所有不相符的檢索器。

錯誤做法
user-agent:
disallow: /downloads/

未定義任何使用者代理程式。

正確做法
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

已定義一般使用者代理程式和 magicsearchbot 使用者代理程式。

確認 user-agent 前沒有 allowdisallow 指令

使用者代理程式名稱會定義 robots.txt 檔案的各個區段。搜尋引擎 檢索器會運用這些部分判斷要追蹤哪些指令。在 指令,代表沒有任何檢索器遵循 基礎架構

錯誤做法
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

所有搜尋引擎檢索器都不會讀取 disallow: /downloads 指令。

正確做法
# start of file
user-agent: *
disallow: /downloads/

不允許所有搜尋引擎檢索 /downloads 資料夾。

搜尋引擎檢索器只會處理 特定的使用者代理程式名稱舉例來說,如果您已有 user-agent: *user-agent: Googlebot-Image,Googlebot 圖片則只會 請遵循 user-agent: Googlebot-Image 區段中的指令。

sitemap 提供絕對網址

Sitemap 檔案是 Sitemap 檔案通常包含 您網站上的網址,以及網址上次使用時間的相關資訊 已變更。

如果您選擇以「robots.txt」提交 Sitemap 檔案,請務必確認 使用絕對網址

錯誤做法
sitemap: /sitemap-file.xml
正確做法
sitemap: https://example.com/sitemap-file.xml

資源