לפני כמה שבועות פרסמתי מסמך PDF שיש בו מת״זים (חשוב לציין שמקור המסמך הוא בצילום ולא בוורד, אז אי אפשר להעתיק ולסמן את הטקסט). למרות שאחרי שמאגר אלקטור דלף, אין טעם יותר להסתיר מת״זים – עדיין לא נעים לפרסם ככה וכיסיתי בריבוע שחור. הבעיה היא שכולנו יודעים (אני מקווה) שריבוע שחור בלבד זה לא מספיק. למה?
השיטה הנאיבית – סימון ריבוע שחור
קודם כל, ככה עושים את זה: נכנסים לקורא PDF חינמי של אדובי, בוחרים בריבוע שחור ואז מסמנים את הטקסט שאנחנו רוצים להחביא:

הנה קובץ PDF שסימנתי אותו בריבוע שחור ושמרתי אותו כ-PDF. אתם יכולים לפתוח אותו עם עורך PDF חינמי של אדובי (לא זה עם דפדפן) ואז להזיז את הריבוע ולראות את הטקסט. השיטה הזו לא טובה. גם אני יכול לעשות copy&paste של הטקסט אם הטקסט הודפס ישירות מוורד.
מה שעשיתי – הדפסה כ-PDF מתוכנה אחרת ובדיקה
אבל נתקלתי ביותר מדי פעמים של הבושה הזו, אז מה עשיתי? אחרי שסימנתי את הטקסט בשחור, פתחתי את קובץ ה-PDF עם כרום, בחרתי בהדפסה והדפסתי כ-PDF.

הנה הקובץ בגרסתו השניה, היותר מוקשחת. אם תפתחו אותו – תגלו שעם עורך ה-PDF אי אפשר למחוק או להזיז את הריבוע. נפלא, לא? אם הטקסט לא הודפס בוורד ואי אפשר לסמן אותו – אז בעצם סגרתי את הפינה, לא?
הדרך שבה המידע נחשף – המרה לוורד
אז פחות נפלא. אחרי שבדקתי והעליתי, עברו כמה ימים וקיבלתי מייל מפתיע מגולש עם השם "אלופי מהמיק". אלופי אמר לי (לא במילים האלו, אבל זה מה שהרגשתי) : ״רן, אתה צוחק על אנשי הממשלה שמשחירים טקסטים ב-וורד ואז שולחים אותם כ-PDF ואפשר לחלץ אותם בקלות עם copy ואתה עושה את אותו הדבר בדיוק!״.
אבל כבר אי אפשר להזיז את הריבוע השחור,והטקסט המקורי היה כתמונה אז אי אפשר היה לבחור אותו והרי שיניתי פורמט כאשר הדפסתי את ה-PDF. לא?
אז זהו, שלא. מסתבר שגם בהדפסה השכבות נשמרות! מה אלופי עשה? העביר את הטקסט לממיר PDF לוורד (יש המון חינמיים כאלו – הנה אחד חמוד) ואז היה אפשר להעביר את הריבוע השחור בקלות! תנסו בעצמכם! קחו את קובץ ה-PDF והטעינו אותו לכל גנרטור כזה. לא יהיה אפשר לבחור בטקסט (כי מדובר בתמונה, הטקסט לא נשמר כוורד אלא נסרק) אבל יהיה אפשר בקלות להזיז את הריבוע השחור!

למרות שהדפסתי את הקובץ שוב – וההדפסה היתה אמורה, לפחות לפי מיטב שיפוטי וגם הבדיקה שלי, להוריד את השכבות – המרה לוורד גרמה לשכבות לעלות שוב.
גם כשניסיתי גנרטורים להשטחה של השכבות – עדיין היה אפשר לבצע את הטריק הזה לדאבוני הרב. או בגלל שהגנרטורים לא עובדים, או בגלל סיבה אחרת.
אלופי מהמיק מספר שגם עם אדובי אקרובט ועוד תוכנות אפשר פשוט לערוך את הPDF ישירות מתוך התוכנה (במקרה של אקרובט זה הגירסה בתשלום).
הדרך היחידה שעובדת: הדרך הארוכה
מה הדרך היחידה שעובדת? המרה לתמונות ואז חיבור מחודש לקובץ PDF אחד. אפשר גם לשנות את האיכות של התמונות כדי להיות בטוחים.
אפשר לעשות זאת עם כלים אונליינים או אפילו עם PDF בתשלום אבל למשתמשי מק – יש את imagemagick שמאפשר לעשות את זה בקלות. מתקינים עם brew c במק בקלות.
brew install imagemagick
עם לינוקס גם אפשר להתקין, אבל מומלץ לוודא שיש ghostscript. מתקינים עם:
sudo apt install imagemagick ghostscript -y
magick -density 300 -quality 100 YOUR_PDF_FILE.pdf ./YOUR_PDF_FILE.png
ואפשר להתקין אותה גם בחלונות – דרך אתר ההורדה. שימו לב שבתהליך ההתקנה חייבים לאשר הורדה של ghostscript שמטפלת בקבצי PDF.
התוכנה תמיר את ה-PDF. אם יש בו יותר מעמוד אחד, היא תיצור תמונות לפי הסדר. עם המסמך שלי, שמנה 50 דפים, היא התמודדה יפה. התמונות ימוספרו.
על מנת להחזיר את התמונות חזרה ל-PDF מאוחד, יש להקליד:
magick convert YOUR_PDF_FILE* ./pdf-without-issues.pdf
הכוכבית אמורה לטפל במקרים שיש כמה תמונות וזה עבד לי יופי.
האיכות של ה-PDF תרד אבל ברוב המקרים זה יהיה בסדר גמור. זו הדרך היחידה לנטרל גם מטא מידע וגם שכבות שמסתננות להן. לא לסמוך על הדפסות דיגיטליות אלא על המרות ממש, כמו פה.
כמובן שיש אלטרנטיבות טובות בהרבה ובתשלום (לפעמים גבוה) וכמובן גם כלים אונליינים חינמיים – אבל אם יש מידע סודי בקבצים שלכם, אולי זה לא הרעיון הכי טוב לעשות את זה באמצעים אונלייניים חינמיים.
אלופי אמר לי משהו מעניין אחרי שאמרתי לו שאפרסם את זה – הוא אמר שעשיתי את הבדיקות הנחוצות ועדיין נפלתי – אבל יש מצב שאני לא היחיד. זה נכון – בטח יש עוד מסמכים מושחרים שמסתובבים שם בחוץ ועלולים להיות גלויים. אם אתם רואים מסמכים כאלו? נסו להמיר אותם לוורד ולגרור את הריבועים השחורים. לכו תדעו מה תמצאו.
תודה רבה לאלופי מהמיק ומקווה שכולם ילמדו מהניסיון שלי.
3 תגובות
נהדר!
דרך אגב, השיטה השנייה שציינת לא עומדת במבחן תכנת inkscape (עורך גרפיקה וקטורית שעל הדרך גם יכול לטפל ב-PDF). אמנם המגבלה העיקרית שלו היא שהוא יכול לפתוח עמוד אחד בכל פעם, אבל עדיין הוא מאפשר להזיז את ההשחרה.
תודה על ההסבר על השיטה הארוכה 🙂
הממממ, אני חושב שהלקח העיקרי פה מוחמץ. הלקח הוא שמה שאתה רואה בעין אינו בהכרח מה שנמצא בקובץ ואם אתה רוצה לוודא שמידע לא נמצא בקובץ תצטרך לחפש בו והכי טוב אם הוא לא יהיה חלק מתהליך יצירת הקובץ מלכתחילה.
הפיתרון שלך הוא לסמוך על תוכנה שתוריד את המידע, אבל האם באמת בדקת שהוא לא קיים יותר בקובץ, אולי בתוכנה יש באג, אולי השתמשת בפרמטר לא נכון? וגם אם הכל נראה טוב אולי לCIA יש תוכנה שלמרות כל המאמצים שלך יכולה לשחזר את המידע?
אבל כל אבטחה צריכה להמדד בהקשר של מה שמאובטח ומה הסיכון (הניסיון מראה שכולנו לא אומדים נכון את הסיכון ועדיין…). בהקשר של הפרסום הזה המידע כנראה כבר דלף, ואלא אם אתה חושב שאתה תהיה וקטור הפצה גדול, השיטה הראשונית שלך היתה סבירה להחלוטין.
ושוב הנקודה הראשונה, הכי טוב לא להפיץ בכלל דברים שלא אתה יצרת מאפס ככל הניתן (שלא לדבר על זכויות יוצרים וכו)
זה כמו ילד קטן שרוצה להתחבא אז הוא שם את כפות הידיים שלו על העיניים: הוא חושב שאם הוא לא רואה, אז גם אחרים לא רואים אותו.
זה בדיוק מה שעשית. ציירת אובייקט ריבוע וחשבת שמה שמלמטה נעלם.
ולמה כל הדיבורים על "כלים" ו"המרות"? בקובץ PDF יש אובייקטי תמונה. מקבלים אותם עם pdfimages. זהו.