robots.txt

כך בונים קובץ טקסט שמסביר לגוגל ולשאר מנועי החיפוש מה לסרוק ומה לא לסרוק.

לא תמיד אנחנו רוצים שכל דפי האתר יופיעו במנוע החיפוש – לפעמים אנו רוצים שדף ה-Log-in של האתר שלנו לא יוצג לראווה בגוגל, או שתוכן מסוים, אחר, לא יאונדקס. באופן עקרוני, אנו יכולים למנוע כניסה מבוטים על ידי שימוש ב-htaccess או בכלים אחרים. אבל לא תמיד צריך אמצעים דרסטיים כאלו – לפעמים צריך לבקש יפה. את הבקשה הזו עושים באמצעות robots.txt.

מדובר בקובץ שיושב ב-root של האתר ובו יש הנחיות לבוטים שונים שסורקים את האתר – בדרך כלל גוגל ובינג (אבל לא רק). בקובץ הזה אנו יכולים לשים הנחיות בנוגע לדפים שאנו מבקשים מהבוט שלא לסרוק.

בואו ונדגים! נניח ויש לנו דף לוגין בשם http://www.example.com/login.php ואנו לא רוצים שהוא ייסרק. אנו נשתול robots.txt באתר בכתובת http://www.example.com/robots.txt ובו יהיה כתוב הפשתגן הבא:


User-agent: *
Disallow: /login.php

ניתן גם לחסום תיקיות שלמות ואפילו אתר שלם, כך למשל אני יכול לחסום את הגישה לתיקית tmp באתר שלי:


User-agent: *
Disallow: /tmp/

ניתן גם לתת כללים שונים לבוטים שונים על פי ה-User agent שלהם. לכל בוט יש user agent משלו (למעט בוטים מרושעים שבדרך כלל מזייפים את ה-user agent שלהם ללא שום בעיה). כך למשל, אנו נמנע מגוגל בוט כניסה לתיקית tmp ולבוט sidewinder נאפשר כניסה לכלל האתר:


 User-agent: googlebot 
Disallow: /tmp/

 User-agent: sidewinder 
Disallow:


במידה ואין לכם גישה אל ה-root של האתר, אפשר להשתמש בתגית מטא בשם noindex בכל עמוד שאתם לא רוצים לאנדקס אותו:


<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

חייבים לזכור שכל העניין הזה הוא מנדטורי. בוטים של מנועי חיפוש יכולים להתעלם או למלא באופן חלקי אחר ההנחיות שיש ב-robots.txt, אבל בשביל לייפות את התוצאות בגוגל ולמנוע מדפים לא קשורים לצוץ להם – זה פתרון מספיק טוב.

ותודה לאמיר כהן על הרעיון.

פוסטים נוספים שכדאי לקרוא

פתרונות ומאמרים על פיתוח אינטרנט

רינדור של קליינט סייד עם SSR

הסבר קצר על SSR מול רינדור קלאסי ולא. לא תמיד זה טוב להשתמש בו. אין כדור כסף שיכול לפתור הכל.

פתרונות ומאמרים על פיתוח אינטרנט

נגישות טכנית – פודקאסט ומבוא

פרק בפודקאסטעל נגישות בעברית שצולל לכלים האוטומטיים ולפן המאד מאד טכני של הנגישות.

DALL·E 2023-10-21 22.28.58 - Photo of a computer server room with red warning lights flashing, indicating a potential cyber threat. Multiple screens display graphs showing a sudde
יסודות בתכנות

מבוא לאבטחת מידע: IDOR

הסבר על התקפה אהובה ומוצלחת שבאמצעותה שואבים מידע מאתרים

ESP32 מאפס לילדים

מדריך ל-ESP32 לילדים ולהורים מאפס

אחד הדברים הכי כיפיים בעולם הוא תכנות ותכנות בעולם האמיתי – המפעיל אורות, ציוד אלקטרוני ומכשירים הוא מלהיב ממש. המדריך מיועד להורים שרוצים ללמד את הילדים שלהם לתכנת.

גלילה לראש העמוד