הקובץ robots.txt
מורה למנועי החיפוש אילו מדפי האתר הם יכולים לסרוק. הגדרה לא חוקית של robots.txt
יכולה לגרום לשני סוגים של בעיות:
- הוא יכול למנוע ממנועי חיפוש לסרוק דפים ציבוריים, ולגרום לכך שהתוכן שלך יופיע בתדירות נמוכה יותר בתוצאות חיפוש.
- היא עלולה לגרום למנועי חיפוש לסרוק דפים שייתכן שלא יופיעו בתוצאות החיפוש.
איך הבדיקה של robots.txt
ב-Lighthouse נכשלת
Lighthouse מסמן קובצי robots.txt
לא חוקיים:
כדי לבדוק מה הבעיה בrobots.txt
, מרחיבים את הביקורת robots.txt
not valid.
השגיאות הנפוצות כוללות:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
מערכת Lighthouse לא בודקת שהקובץ robots.txt
נמצא במיקום הנכון. כדי לפעול כראוי, הקובץ חייב להיות בבסיס של הדומיין או של תת-הדומיין.
איך פותרים בעיות עם robots.txt
צריך לוודא ש-robots.txt
לא מחזיר קוד סטטוס HTTP 5XX
אם השרת מחזיר שגיאת שרת (קוד סטטוס HTTP בספרה 500) עבור robots.txt
, מנועי החיפוש לא ידעו אילו דפים צריך לסרוק. הם עלולים להפסיק לסרוק את האתר כולו, וכך למנוע הוספה של תוכן חדש לאינדקס.
כדי לבדוק את קוד הסטטוס של ה-HTTP, פותחים את robots.txt
ב-Chrome ובודקים את הבקשה בכלי הפיתוח ל-Chrome.
שמירה על robots.txt
קטנה מ-500KiB
יכול להיות שמנועי חיפוש יפסיקו לעבד robots.txt
באמצע אם הקובץ גדול מ-500KiB. זה עלול לבלבל את מנוע החיפוש, וזה עלול להוביל לסריקה שגויה של האתר.
כדי לצמצם את robots.txt
, התמקדו פחות בדפים שהוחרגו בנפרד ויותר בדפוסים רחבים יותר. לדוגמה, אם אתם צריכים לחסום סריקה של קובצי PDF,
לא כדאי למנוע כל קובץ בנפרד. במקום זאת, צריך לחסום את כל כתובות ה-URL שמכילות את .pdf
באמצעות disallow: /*.pdf
.
תיקון של שגיאות בפורמט
- רק שורות ריקות, הערות והוראות שמתאימות לפורמט 'name: value' מותרות ב-
robots.txt
. - צריך לוודא שהערכים
allow
ו-disallow
ריקים או מתחילים ב-/
או ב-*
. - אין להשתמש בערך
$
באמצע ערך (לדוגמה,allow: /file$html
).
עליך לוודא שיש ערך עבור user-agent
שמות של סוכני משתמש שינחו את הסורקים של מנוע החיפוש אחר אילו הנחיות לפעול. צריך לספק ערך לכל מכונה של user-agent
כדי שמנועי החיפוש יידעו אם לפעול בהתאם לקבוצת ההוראות המשויכת.
כדי לציין סורק מסוים של מנוע חיפוש, השתמש בשם של סוכן משתמש מהרשימה שלו שפורסמה. (לדוגמה, ברשימה של סוכני המשתמש של Google המשמשים לסריקה).
משתמשים בפונקציה *
כדי להתאים את כל הסורקים שלא נמצאה להם התאמה.
user-agent: disallow: /downloads/
לא הוגדר סוכן משתמש.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
סוכן משתמש כללי וסוכן משתמש magicsearchbot
הוגדרו.
עליך לוודא שאין הוראות allow
או disallow
לפני user-agent
השמות של סוכני המשתמש מגדירים את הקטעים בקובץ robots.txt
. סורקים של מנועי חיפוש משתמשים בקטעים האלה כדי לקבוע אחרי אילו הנחיות לפעול. אם מציבים הנחיה לפני השם של סוכן המשתמש הראשון, הסורקים לא יעקבו אחריה.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
אף סורק של מנועי חיפוש לא יקרא את ההוראה disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
לכל מנועי החיפוש אין הרשאה לסרוק את התיקייה /downloads
.
סורקים של מנועי חיפוש פועלים רק לפי ההוראות בקטע עם שם הסוכן המשתמש הספציפי ביותר. לדוגמה, אם יש לכם הוראות ל-user-agent: *
ול-user-agent: Googlebot-Image
, אפליקציית Googlebot Images תפעל רק לפי ההוראות שבקטע user-agent: Googlebot-Image
.
צריך לציין כתובת URL מוחלטת עבור sitemap
קובצי Sitemap הם דרך מצוינת ליידע את מנועי החיפוש על דפים באתר שלכם. קובץ sitemap כולל בדרך כלל רשימה של כתובות ה-URL באתר, יחד עם מידע על המועד האחרון שבו הן שונו.
אם תבחרו לשלוח קובץ sitemap ב-robots.txt
, הקפידו
להשתמש בכתובת URL מוחלטת.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml