כדי לסייע לסטודנטים שאני מלמד במקומות שונים ואיכשהו תמיד חסרים לי מאמרים שאני יכול לשלוח לסטודנטים המסבירים למי שלומד מדעי המחשב דברים בסיסיים באבטחת מידע ובעברית. יש לא מעט מאמרים (אשתדל לתת קישורים איפה שיש) עם הסברים אבל ההסברים מיועדים לאנשים שלומדים אבטחת מידע ומכילים כבר מונחים מהתחום שפחות רלוונטיים לאנשים שצריכים ללמוד את המבוא. אז כדי לעזור לעצמי, כתבתי סדרת מאמרים שמסבירים מונחים בסיסיים באבטחת מידע ובדגש על ווב ופיתוח ומה שמפתחים מתחילים צריכים לדעת. במאמר זה אני מסביר על התקפה מעניינת ונפוצה בשם גוגל דורקינג.
יש בעיה משמעותית מאד עם גוגל ובכלל עם מנועי חיפוש – הוא סורק כל מקום שהוא יכול להגיע אליו. מנועי חיפוש עובדים בגדול באופן כזה: הם נכנסים לדף, סורקים את תוכנו ושומרים אותו או מילות מפתח הקשורות אליו ואז קוראים מייד את כל הקישורים שיש בו ונכנסים אליהם וכך הלאה. גם קישורים שלא תמיד רוצים או מעונינים שיופיעו. יש אתרים המכילים מפת אתר – שזו רשימה של תוכן שיש בדף שנועדו לסייע למנוע החיפוש למצוא את הדפים בקלות רבה יותר (גם בבלוג שלי יש מפת אתר) ולפעמים נכנסים לשם קישורים לא לעניין.
מי שרוצה לשמוע איך זה יכול ממש להזיק, יכול להאזין לפרק הזה שהקלטתי בזמנו בחיות כיס ובו מתואר מקרה מבאס כזה שאירע למישהו תמים לגמרי שסריקה לא נכונה של גוגל החריבה את שמו הטוב. אני מספר שם איך מנוע חיפוש עובד.
הטכניקה גוגל דורקינג ובאנגלית Google Dorking היא בעצם שימוש בגוגל על מנת למצוא מידע שבעלי האתר לא רוצים שתמצאו. בבסיס גוגל דורקינג עומדות טכניקות שונות למציאת דפים וקבצים שונים באתרים. הטכניקות האלו מאפשרות למשל למצוא את כל קבצי ה-PDF של אתר מסוים. למשל, אם תכניסו בגוגל את הטקסט הזה:
site:internet-israel.com filetype:pdf
אתם תמצאו את כל קבצי ה-PDF שיש לי באתר. את כולם העליתי וכולם, באופן עקרוני, אמורים להיות מותרים לפרסום ואין בעיה אית��. אבל… מה אם העליתי את זה במסגרת פוסט והתחרטתי ומחקתי את הפוסט? הקובץ יישאר ויש מצב שאם גוגל סרקה את הפוסט המקורי, היא יודעת מה המיקום של ה-PDF ותציג אותו בתוצאות החיפוש. מה אם חשפתי בטעות ממשק סודי שיש בו קבצים שלא אמורים להיות שם? אז מי שיחפש קבצי PDF באתר שלי יופתע לגלות קבצים שהוא לא אמור לראות!

אפשר כמובן לחפש דברים אחרים ולא רק באתרים ממוקדים – למשל
filetype:pdf קורות חיים תעודת זהות
והוא יביא לכם שלל של קורות חיים בפורמט PDF שיש בהם מספרי תעודת זהות.
יש לא מעט פילטרים, סיור מהיר בצ׳אט של בינה מלאכותית יתן לכם את זה, אבל אני שם אותו פה לטעימה:
פילטר | תיאור | דוגמה |
---|---|---|
site: | חיפוש בתוך דומיין מסוים בלבד | site:gov.il |
inurl: | חיפוש במחרוזת ה-URL של הדף | inurl:admin |
intitle: | חיפוש בכותרת העמוד | s |
filetype: | חיפוש קבצים לפי סוג מסוים | filetype:pdf |
ext: | כמו filetype: , אבל פחות נפוץ | ext:docx |
intext: | חיפוש בטקסט המלא של הדף | intext:"סיסמה" |
cache: | הצגת הגרסה השמורה של דף אינטרנט | cache:example.com |
related: | מציאת אתרים דומים לאתר נתון | related:example.com |
link: | חיפוש דפים המקשרים לדף מסוים | link:example.com |
Index of
אחד מהדברים המלהיבים ביותר שיש בגוגל דורקינג הוא index of, יש תכונה בשרתים מסוימים להצגת כל הקבצים בדיוק כמו סייר קבצים.
אני אסביר מה זה שרתי אינטרנט. שרתים הם בעצם מחשבים שמחוברים לרשת. מחשבים שבאופן עקרוני לא שונים מלפטופ או מחשב שולחני. מותקנת עליהם מערכת הפעלה (לינוקס או חלונות) ובמערכת ההפעלה הזו מותקנת תוכנה שנקראת ״שרת״. התוכנה הזו יודעת לעבוד עם דפדפנים. כך למשל, אם יש לי מחשב ואני מחבר אותו לרשת ומקבל כתובת IP של 6.38.20.20, אם אני מתקין עליו שרת, השרת ידע להציג דפים למי שמכניס את הכתובת 6.38.20.20 לדפדפן, או שם מתחם הקשור אל 6.38.20.20. הדפים שהשרת מציג יכולים להיות דינמיים או קבצים על השרת כולל תמונות, קבצי קוד, סרטונים, קבצי קול וכו׳ וכו׳. הקבצים האלו הם בדיוק כמו הקבצים שיושבים אצלכם.
חלק מהשרתים מכילים ��כונת ברירת מחדל שמציגה את כל הקבצים שיש על השרת במבנה תיקיות מסודר. זו תכונה שמקלה על המתכנתים ובוני האתרים שמשתמשים בשרת כל עוד עובדים עליו והוא מחובר לרשת הפנימית, אבל כמובן שזה רעיון רע מאד לעשות בשרת שחשוף לאינטרנט. רע מאד. איך מוצאים שרתים שהמפעילים שלהם שכחו לכבות את האפשרות הזו? ובכן:
intitle:"index of" site:il
תגלו המון אתרים ישראלים שמציגים רשימה של הקבצים שלהם. הרוב המוחץ של הקבצים הוא בסדר גמור – תמונות שאמורות להיות באתר, סרטונים שאין איתם שום בעיה וכו׳ וכו׳. אבל חלק אחר? לכו תדעו…

מניעה
למעט ההמלצה לוודא שיש Access Control מסודר על קבצים שאנחנו לא רוצים שידלפו – אין המלצה נוספת. פשוט בנייה נכונה וניהול נכון של משאבים.
פריצות שהיו
היו מלא דלפי מידע שהתגלו בגוגל דורקינג. המונים. למשל מקרה שבו נחשפו המון חשבונות ארנונה כתוצאה מחיפוש בבינג. מידע שדלף מאתר לממכר קנביס הכולל מידע רפואי מאד רגיש. מידע רפואי על טירונים בבא״ח גבעתי ו… וואו, היו עוד המון.
תגובה אחת
האם זה נחשב פריצה ? והאם זה חוקי?