הפרת פרטיות כתוצאה מחולשת אבטחה ב robots.txt באתר תקדין

כך פיצ׳ר ממש חביב שאנשי SEO משתמשים בו הפך לחולשת אבטחה

האייטם המקורי פורסם בהארץ – פה מוצגת הרחבה שלו והסבר טכני.

כל פיצ׳ר חביב כלשהו שמפתחי ווב משתמשים בו, מתישהו מנוצל על ידי פושעים למטרות נלוזות. והיום? היום robots.txt. מכירים אותו? זה קובץ הנחיות קטן שיש כמעט בכל אתר ומנחה את מנועי החיפוש להתעלם מדפים מסוימים. למה? כי יש דפים שאין טעם לסרוק. דף הלוגין למשל, או דפי ארכיון כפולים. שימו לב למשל לאתר וורדפרס.קום ולקובץ שלו: https://wordpress.com/robots.txt שמפרט בו דפים שהוא לא רוצה שיוצגו בגוגל.

הגיוני, לא? הדפים האלו, אגב, הם חלק ממה שנקרא ה-deep web. שם מפוצץ ומפחיד למשהו ממש פשוט: דפים שאי אפשר למצוא אותם בגוגל/מנועי חיפוש אחרים. כמו הדפים המפורטים בקובץ הזה, או מסך הניהול באתר הזה, או גרסאות כפולות של המאמרים בארכיון, תוצאות החיפוש במנוע החיפוש הפנימי באתר וכו׳ וכוק. לא כזה נורא, נכון? זה בסופו של דבר פתרון טוב מאוד שמנהל את איך שהאתר שלנו נראה במנוע החיפוש.
מה הבעיה? שהרבה מתכנתים שוכחים שכל אחד יכול לגשת לקובץ ולא רק מנועי חיפוש ונוהגים ��שים שם קישורים לדפים שמסגירים מידע שלפעמים הוא קריטי. מה זה מידע קריטי? מ-API שעדיף שלא יהיה פתוח ועד כתובת של הממשק הניהולי. אבל יכול להיות שם מידע יותר קריטי, אישי וחשוב. למשל כמו מידע שמופיע באתר תקדין לייט שבו אשתמש כדוגמה לחולשה הזו (הם תיקנו את החולשה ומהר, ראוי לציין).

את אתר תקדין לייט. אתם מכירים גם אם אתם לא עורכי דין.

אתר תקדין - צילום מסך — אתר תקדין – צילום מסך

למה? כי כשאנחנו מחפשים שם של מישהו (מועמד לעבודה, בעל מקצוע, שותף) בגוגל – תקדין יציג לנו את שמו אם יש פסקי דין שמציגים את שמו. אם נרצה לחטט הלאה, נצטרך לשלם כסף על מנוי לתקדין או גישה מזדמנת. מזה האתר מרוויח. לגיטימי.

צילום מסך מתוך גוגל - חיפוש שם של מישהו מציג תוצאה מתקדין לייט — צילום מסך מתוך גוגל – חיפוש שם של מישהו מציג תוצאה מתקדין לייט

אבל האתר מרוויח מעוד משהו: הוא מקבל כסף מהסרה של שמות מהארכיבים שלו. גם עד כאן הסיפור לגיטימי. למרות שהיו לא מעט עניינים וסיפורים סביב העניין הזה.

אבל איך תקדין הסירו את השמות של האנשים? חוקר האבטחה (המורשה! יש לו תעודה) מייקל אנג׳ל גילה וגם הלשין לי: תקדין הסירו את התוצאות מהאתר, אבל הוסיפו אותן אל… ה-robots.txt שלהם כדי שגוגל לא יציג את התוצאות. כך כל אחד היה יכול לקבל גישה מלאה אל השמות של האנשים שששילמו כסף על מנת להסיר את עצמם. מפה? מפה החגיגה יכולה רק להתחיל.

זו לא חולשת האבטחה הכי מחרידה בעולם, אבל היא דוגמה מדהימה לאיך עצלנות או אפילו סתם חוסר ידיעה יכולה לגרום לחולשות ובמקרה הזה להפרת פרטיות וגם פתח לצרות. מי ששילם על הסרת השם שלו מתוצאות תקדין במנוע החיפוש לא רצה להופיע ברשימה מסוימת שגלויה לכל, נכון?פשוט דוגמה נהדרת לחולשה נפוצה. הנה, עכשיו גם אתם יודעים 🙂

מה עושים נגד הסיפור הזה? ראשית, אם יש לכם נתונים רגישים, אל תשימו אותם ב-robots.txt. ניתן להציב בראש עמודים שאתם לא רוצים שייסרקו את תגית המטא הפשוטה robots.

<meta name="robots" content="noindex" />

או לחלופין, ב-response לשים header בתגובה של השרת לעמודים שאתם לא רוצים שייסרקו, משהו בסגנון הזה:

X-Robots-Tag: noindex

יש תיעוד מלא במדריך המפתחים של גוגל שמסביר על זה.

עבודה עם גוגל, או קידום אתרים בלשון העם – היא עבודה לא פשוטה. ללא ספק הנחיה של מקדם היתה יכולה לסייע פה.

אהבתם את התוכן שלי? נסו את ספרי הלימוד שלי

פרויקט ספרי לימוד התכנות שלי עם אלפי קוראים ותמיכה של חברות מובילות נועד לאפשר לכל אחד ואחת ללמוד תכנות מעשי

לחצו כאן

ללמוד תכנות בעברית

ללמוד תכנות מעשי מאפס, בעברית ובקלות עם הספר שלי ״ללמוד ג׳אווהסקריפט בעברית״

לחצו כאן

רן בר-זיק

ארכיטקט תוכנה בכיר בסייברארק, עיתונאי טכנולוגיה בעיתון דה מרקר, מרצה בקריה האקדמית אונו ואוניברסיטת חיפה, אב לארבעה ילדים.

5 תגובות

משתמש אנונימי (לא מזוהה) הגיב:

מרץ 2, 2019 בשעה 4:51 pm

שאלה – אם יש נתונים רגישים, למה לא פשוט להוריד אותם מהאתר (ולשמור גרסה אופליינית שלהם)?
הרי אם למישהו היה לינק או בוקמארק לנתונים הללו, גם אם יוסיפו את התגית הזאת, הלינק עדין יעבוד…

Reply
רן בר-זיק הגיב:

מרץ 2, 2019 בשעה 5:26 pm

כי לוקח זמן (לפעמים המון זמן) למנוע החיפוש להוריד את החומר הזה. כלומר מי שיחפש את השם יראה שיש תוצאה, ילחץ ויגיע לדף 404 אבל הוא יוכל לטעון את התוצאה מ-cache של הדפדפן.

Reply
- שמואל הגיב:
  
  מרץ 3, 2019 בשעה 12:29 pm
  
  מה CACHE של גוגל
  לא של הדפדפן
  
  Reply
משתמש אנונימי (לא מזוהה) הגיב:

מאי 16, 2019 בשעה 12:36 pm

מעניין!

Reply
לירן הגיב:

יולי 19, 2019 בשעה 1:10 pm

מצחיק שהם עדיין השאירו את זה ככה במקום לפתור באמת ברמת העמוד.. ואפילו אחרי שזה פורסם, זב די חובבני מצידם.
הם יכלו גם לבקש מגוגל הסרת תוצאות אל כל כך היו רוצים להשקיע

Reply

השארת תגובה

ביטול

פוסטים מומלצים

תכנות בעולם האמיתי עם מיקרו בקרים

לימוד מאפס של תכנות עם מיקרו בקרים למבוגרים ולילדים: לבנות מכשירים שונים עם מיקרו פייתון עם קצת ChatGPT בקלות ובכיף

לחצו כאן

יסודות בתכנות

קריפטוגרפיה, ביצועים, אבטחת מידע ומידע יסודי וחשוב שגם מתכנתים מנוסים לא תמיד יודעים.

הכנסו עכשיו

מבוא לעולם הפוסט קוונטי

הצפנה בעולם הפוסט קוונטי וכיצד יש להתכונן לעתיד

לחצו כאן

איך בוחרים טכנולוגיה חדשה?

איך, כמתכנתים, יודעים מתי הזמן לעבור לטכנולוגיה חדשה?

קראו והאזינו

פוסטים נוספים שכדאי לקרוא

חדשות אינטרנט

AI Engineer: סתם עוד באזוורד מנופח או המקצוע החשוב של העשור?

הסבר על הטייטל החדש שרואים אותו יותר ויותר AI Engineer. האם זה קשקוש נוסף שהתקשורת מלבה או משהו ממשי?

ינואר 11, 2026 אין תגובות

יסודות בתכנות

איך TCP עובד? מבט מעמיק

הסבר מעמיק מתחת למנוע על איך תקשורת TCP עובדת כולל ניתוח פקטות.

ינואר 18, 2026 10 תגובות

יסודות בתכנות

מבוא לאבטחת מידע: גוגל דורקינג

מאמר מבוא המספר בקצרה ובלשון קלה על גוגל דורקינג – טכניקה לביצוע האקינג גם ללא ידע טכני כלל.

אוגוסט 24, 2025 8 תגובות

בינה מלאכותית

איך אייג׳נט מבוסס LLM עובד?

הסבר בסיסי על איך אייג׳נט עם כלים עובד ואפילו איך בונים אחד מאפס עם פייתון בלבד.

יוני 30, 2026 8 תגובות

בינה מלאכותית

שימוש ב-Plan Mode באופן חכם

כך נמנעי את קריאות השבר של "מה האייג'נט עשה?!" שיטת Plan mode: שיטה קריטית לעבודה יעילה, המייצרת תוכנית עבודה מפורטת (DoD) עוד לפני כתיבת שורת קוד אחת.

יוני 9, 2026 2 תגובות

יסודות בתכנות

איך UDP עובד? מבט מעמיק

איך תקשורת udp בשכבה 4 עובדת ולמה בכלל זה חשוב?

ינואר 25, 2026 3 תגובות

טען עוד