מטא מידע בקבצים והסכנות בהם

מטא מידע יכול אפילו להרוג ומהווה פיגוע פרטיות עצום לפעמים - כאן לומדים עליו

הפוסט הזה נוצר בעקבות בקשה באחת התגובות לפוסט הקודם שבו דיברתי על פרטיות עם VPN ו-Tor והזכרתי את עניין מטא המידע ועד כמה הוא חשוב לפרטיות – עד כדי כך שראש ה-NSA אמר פעם שארצות הברית הורגת אנשים על בסיס מטא מידע. אז מה זה מטא מידע?

מטא מידע הוא בעצם ״מידע על מידע״. מה זאת אומרת? זאת אומרת שאם יש לנו קובץ מסוים, המטא מידע שלו יספק מידע נוסף עליו שאינו כלול בו.

אני אדגים עם הדף של המאמר הזה. אם תשתמשו ב״הראה מקור״ ותראו את קוד ה-HTML של האתר הזה, תוכלו לראות תגיות של מטא מידע – התגיות האלו אינן נראות למשתמש הרגיל בדפדפן אלא מי שמשתמש בהן הן ישויות אחרות – למשל מנועי חיפוש, סורקים ומארכבים שמשתמשים במידע שיש שם – כמו תיאור, כותרת, תמונת המחבר וכו׳ וכו׳. למשל אם אני אדביק את כתובת האתר בפייסבוק, טוויטר, בלוסקיי או כל רשת חברתית אחרת – הסורקים שלו יגשו לאתר ויבקשו את המטא מידע הזה.

מטא מידע בתגיות HTML - רואים תגית description, title ועוד רבות אחרות.

כמו שיש לדפי HTML מטא מידע, יש מטא מידע לסוגי מידע אחרים. בעצם לכל קובץ יכול להיות מטא מידע. יש כמה דרכים להסתכל על מטא מידע (למשל ממש במידע הבינארי) אבל אחת הדרכים המקובלות היא עם כלים. יש כמה כאלו ואחד הבולטים הוא exif שאפשר להתקין על כל מערכת הפעלה.

אחרי ההתקנה השימוש ממש קל – נכנסים לטרמינל או ל-cmd ומקלידים exiftool ואז את שם הקובץ שאנחנו רוצים לבדוק. הנה תמונה שלי למשל שאצרף כאן:

תמונה סטנדרטית של מחשב שצילמתי.

אם תורידו את התמונה הזו ותבדקו אותה עם הפקודה:

exiftool image-that-I-copied-1024×768.jpg

תוכלו לראות המון המון המון נתונים שמסגירים מידע רב על התמונה, מתי היא צולמה ואיך.

ExifTool Version Number         : 12.85
File Name                       : image-that-I-copied-1024x768.jpg
Directory                       : Downloads
File Size                       : 183 kB
File Modification Date/Time     : 2024:05:26 21:14:32+03:00
File Access Date/Time           : 2024:05:26 21:14:36+03:00
File Inode Change Date/Time     : 2024:05:26 21:14:35+03:00
File Permissions                : -rw-r--r--
File Type                       : JPEG
File Type Extension             : jpg
MIME Type                       : image/jpeg
JFIF Version                    : 1.01
Exif Byte Order                 : Little-endian (Intel, II)
Make                            : samsung
Camera Model Name               : SM-G998B
Orientation                     : Horizontal (normal)
X Resolution                    : 72
Y Resolution                    : 72
Resolution Unit                 : inches
Software                        : G998BXXSAFXCP
Modify Date                     : 2024:05:26 21:08:02
Y Cb Cr Positioning             : Centered
Exposure Time                   : 1/50
F Number                        : 2.2
Exposure Program                : Program AE
ISO                             : 200
Exif Version                    : 0220
Date/Time Original              : 2024:05:26 21:08:02
Create Date                     : 2024:05:26 21:08:02
Offset Time                     : +03:00
Offset Time Original            : +03:00
Shutter Speed Value             : 1
Aperture Value                  : 2.2
Brightness Value                : 1.85
Exposure Compensation           : 0
Max Aperture Value              : 2.2
Metering Mode                   : Center-weighted average
Flash                           : No Flash
Focal Length                    : 2.2 mm
Sub Sec Time                    : 920
Sub Sec Time Original           : 920
Sub Sec Time Digitized          : 920
Color Space                     : sRGB
Exif Image Width                : 4000
Exif Image Height               : 3000
Exposure Mode                   : Auto
White Balance                   : Auto
Digital Zoom Ratio              : 1
Focal Length In 35mm Format     : 13 mm
Scene Capture Type              : Standard
Image Unique ID                 : F12XSNF00NM
Compression                     : JPEG (old-style)
Thumbnail Offset                : 868
Thumbnail Length                : 57288
Image Width                     : 1024
Image Height                    : 768
Encoding Process                : Baseline DCT, Huffman coding
Bits Per Sample                 : 8
Color Components                : 3
Y Cb Cr Sub Sampling            : YCbCr4:2:0 (2 2)
Aperture                        : 2.2
Image Size                      : 1024x768
Megapixels                      : 0.786
Scale Factor To 35 mm Equivalent: 5.9
Shutter Speed                   : 1/50
Create Date                     : 2024:05:26 21:08:02.920
Date/Time Original              : 2024:05:26 21:08:02.920+03:00
Modify Date                     : 2024:05:26 21:08:02.920+03:00
Thumbnail Image                 : (Binary data 57288 bytes, use -b option to extract)
Circle Of Confusion             : 0.005 mm
Field Of View                   : 108.3 deg
Focal Length                    : 2.2 mm (35 mm equivalent: 13.0 mm)
Hyperfocal Distance             : 0.43 m
Light Value                     : 6.9

המידע הזה יישאר גם אם כיווצתי את התמונה – כמו במקרה הזה. העליתי את התמונה לוורדפרס המנהל את האתר הזה, התמונה כווצה והשתנתה על ידי המערכת – אבל מטא המידע נשאר. אפשר לראות שהתמונה צולמה ב-2024:05:26 21:08:02.920 בדיוק, שצילם אותה סמסונג מדגם ספציפי ועוד שפע של מידע שיכול להיות ייחודי מאד.

אם מדובר במצלמה שמתעדת מיקומים (ויש כאלו) – אני אקבל לעתים גם מיקום מדויק שבו התמונה צולמה – וזה יעבור גם אם התמונה עברה שינוי גודל ולעתים גם עיבוד.

למה זה מלחיץ? כי אם אני שולח מידע לעיתונאי, אתר כלשהו, גוף כלשהו או פוליטיקאי והמידע הזה דולף איכשהו החוצה – אז אפשר למצוא לא מעט פרטים עלי. למשל, נניח וצילמתי עבריין כלשהו והמידע הועבר למשטרה ומשם לעורך הדין של הנאשם (שצריך את המידע הזה לפי חוק כדי להגן על הלקוח שלו) – יש סיכוי שמידע עלי ייחשף.

אפשר להשתמש גם באופן מסחרי במידע הזה – תמונות שמיוצרות עם בינה מלאכותית בדרך כלל מקבלות מטא מידע המצהיר על דרך הייצור שלהן. תמונות שמוגנות בזכויות יוצרים גם כן נחתמות (ואז קל להראות מאיפה הן הגיעו).

מחיקת מטא המידע

אם אתם צריכים להפיץ תמונה כזו – דרך טובה היא למחוק את מטא המידע הזה, אפשר לעשות את זה עם exiftool באופן הזה:

exiftool -all= yourimagename.png

הנה למשל אותה תמונה אחרי שמחקתי את מטא המידע שלה.

תמונה סטנדרטית של מחשב שצילמתי - היא נראית זהה לחלוטין לתמונה הקודמת.

אתם מוזמנים לנסות – להוריד את התמונה ולבדוק עם ה-exif את המידע שיש עליה. לא יהיה הרבה:

 ~  exiftool Downloads/image-that-I-copied-after-deletion-1024x768.jpg                               ok
ExifTool Version Number         : 12.85
File Name                       : image-that-I-copied-after-deletion-1024x768.jpg
Directory                       : Downloads
File Size                       : 125 kB
File Modification Date/Time     : 2024:05:26 21:30:44+03:00
File Access Date/Time           : 2024:05:26 21:30:48+03:00
File Inode Change Date/Time     : 2024:05:26 21:30:46+03:00
File Permissions                : -rw-r--r--
File Type                       : JPEG
File Type Extension             : jpg
MIME Type                       : image/jpeg
JFIF Version                    : 1.01
Resolution Unit                 : None
X Resolution                    : 1
Y Resolution                    : 1
Image Width                     : 1024
Image Height                    : 768
Encoding Process                : Baseline DCT, Huffman coding
Bits Per Sample                 : 8
Color Components                : 3
Y Cb Cr Sub Sampling            : YCbCr4:2:0 (2 2)
Image Size                      : 1024x768
Megapixels                      : 0.786

כן יהיה מטא מידע נוסף שמערכת הוורדפרס הציבה – כמו למשל File Modification Date/Time שהוא התאריך שבו התמונה הועלתה לוורדפרס. גם זה נותן מידע מסוים, אבל לא על מצלם התמונה.

חשוב לזכור שאני לא מגלה כאן את אמריקה. רשתות חברתיות מודעות לעניין הזה ואם אני אשלח את התמונה הזו בווטסאפ, מטא או רוב הרשתות החברתיות המידע הזה יימחק או ישתנה. כיוון שהרשתות לא מעונינות שאף אחד, חוץ מהן כמובן, יעקוב אחרי המשתמשים שלהן.

מטא מידע לא נמצא רק בתמונות, אלא נמצא גם בכל קובץ שהוא – גם קבצי וורד וקבצים אחרים. הרוצח הסדרתי דניס ראדר למשל – נתפס לאחר ששלח קובץ למשטרה (כדי להתרברב) ועליו היה מטא מידע עם השם שלו. בקבצי וורד בכלל יש חגיגת מטא מידע. למשל הנה קובץ מטא מידע של קובץ וורד אקראי מהמחשב שלי. שימו לב לכמה מידע יש עליו!

Creator                         : Ran Bar Zik
Keywords                        :
Description                     :
Last Modified By                : Ran Bar Zik
Revision Number                 : 1
Create Date                     : 2024:05:08 06:58:00Z
Modify Date                     : 2024:05:08 11:16:00Z
Template                        : Haifa_University.dotx
Total Edit Time                 : 24 minutes
Pages                           : 1
Words                           : 327
Characters                      : 1869
Application                     : Microsoft Office Word
Doc Security                    : None
Lines                           : 15
Paragraphs                      : 4
Scale Crop                      : No
Heading Pairs                   : Title, 1
Titles Of Parts                 :
Company                         :
Links Up To Date                : No
Characters With Spaces          : 2192
Shared Doc                      : No
Hyperlinks Changed              : No
App Version                     : 16.0000

לסיכום, אני מקווה שהראיתי כאן כמה מטא מידע הוא דבר שיכול להיות מאד בעייתי וגם מעניין. אני ממליץ לכם לבדוק מדי פעם קבצים, תמונות וסרטוני וידאו שמפורסמים בכל מיני מקומות – לכו תדעו מה תמצאו! 😇

אם אתם מדליפים פוטנציאליים או עיתונאים – מאד כדאי להיות ערים לעניין הזה ולמחוק את מטא המידע לפני ששולחים ואם אתם מהצד המפרסם – מומלץ מאד דווקא ליצור רפרודוקציה של המידע (למשל צילום מסך של התמונה המקורית ועיבוד גרפי, העתקה ידנית של הטקסט מקובץ או המרות אלו ואחרות) ולא לפרסם מידע מקורי בפומבי – זה עלול להיות מאד מסוכן.

פוסטים נוספים שכדאי לקרוא

פתרונות ומאמרים על פיתוח אינטרנט

המנעו מהעלאת source control לשרת פומבי

לא תאמינו כמה אתרים מעלים את ה-source control שלהם לשרת. ככה תמצאו אותם וגם הסבר למה זה רעיון רע.

גלילה לראש העמוד