למה חשוב להמיר PDF שמסתירים חלק ממנו לתמונה ולא לעשות קיצורי דרך

משתמש מצא אצלי דליפת מידע - מה אפשר ללמוד ואיך אפשר להשתמש בידע הזה כדי לאתר דליפות נוספות

לפני כמה שבועות פרסמתי מסמך PDF שיש בו מת״זים (חשוב לציין שמקור המסמך הוא בצילום ולא בוורד, אז אי אפשר להעתיק ולסמן את הטקסט). למרות שאחרי שמאגר אלקטור דלף, אין טעם יותר להסתיר מת״זים – עדיין לא נעים לפרסם ככה וכיסיתי בריבוע שחור. הבעיה היא שכולנו יודעים (אני מקווה) שריבוע שחור בלבד זה לא מספיק. למה?

השיטה הנאיבית – סימון ריבוע שחור

קודם כל, ככה עושים את זה: נכנסים לקורא PDF חינמי של אדובי, בוחרים בריבוע שחור ואז מסמנים את הטקסט שאנחנו רוצים להחביא:

החבאה של טקסט עם ריבוע שחור.

הנה קובץ PDF שסימנתי אותו בריבוע שחור ושמרתי אותו כ-PDF. אתם יכולים לפתוח אותו עם עורך PDF חינמי של אדובי (לא זה עם דפדפן) ואז להזיז את הריבוע ולראות את הטקסט. השיטה הזו לא טובה. גם אני יכול לעשות copy&paste של הטקסט אם הטקסט הודפס ישירות מוורד.

מה שעשיתי – הדפסה כ-PDF מתוכנה אחרת ובדיקה

אבל נתקלתי ביותר מדי פעמים של הבושה הזו, אז מה עשיתי? אחרי שסימנתי את הטקסט בשחור, פתחתי את קובץ ה-PDF עם כרום, בחרתי בהדפסה והדפסתי כ-PDF.

הנה הקובץ בגרסתו השניה, היותר מוקשחת. אם תפתחו אותו – תגלו שעם עורך ה-PDF אי אפשר למחוק או להזיז את הריבוע. נפלא, לא? אם הטקסט לא הודפס בוורד ואי אפשר לסמן אותו – אז בעצם סגרתי את הפינה, לא?

הדרך שבה המידע נחשף – המרה לוורד

אז פחות נפלא. אחרי שבדקתי והעליתי, עברו כמה ימים וקיבלתי מייל מפתיע מגולש עם השם "אלופי מהמיק". אלופי אמר לי (לא במילים האלו, אבל זה מה שהרגשתי) : ״רן, אתה צוחק על אנשי הממשלה שמשחירים טקסטים ב-וורד ואז שולחים אותם כ-PDF ואפשר לחלץ אותם בקלות עם copy ואתה עושה את אותו הדבר בדיוק!״.

אבל כבר אי אפשר להזיז את הריבוע השחור,והטקסט המקורי היה כתמונה אז אי אפשר היה לבחור אותו והרי שיניתי פורמט כאשר הדפסתי את ה-PDF. לא?

אז זהו, שלא. מסתבר שגם בהדפסה השכבות נשמרות! מה אלופי עשה? העביר את הטקסט לממיר PDF לוורד (יש המון חינמיים כאלו – הנה אחד חמוד) ואז היה אפשר להעביר את הריבוע השחור בקלות! תנסו בעצמכם! קחו את קובץ ה-PDF והטעינו אותו לכל גנרטור כזה. לא יהיה אפשר לבחור בטקסט (כי מדובר בתמונה, הטקסט לא נשמר כוורד אלא נסרק) אבל יהיה אפשר בקלות להזיז את הריבוע השחור!

למרות שהדפסתי את הקובץ שוב – וההדפסה היתה אמורה, לפחות לפי מיטב שיפוטי וגם הבדיקה שלי, להוריד את השכבות – המרה לוורד גרמה לשכבות לעלות שוב.

גם כשניסיתי גנרטורים להשטחה של השכבות – עדיין היה אפשר לבצע את הטריק הזה לדאבוני הרב. או בגלל שהגנרטורים לא עובדים, או בגלל סיבה אחרת.

אלופי מהמיק מספר שגם עם אדובי אקרובט ועוד תוכנות אפשר פשוט לערוך את הPDF ישירות מתוך התוכנה (במקרה של אקרובט זה הגירסה בתשלום).

הדרך היחידה שעובדת: הדרך הארוכה

מה הדרך היחידה שעובדת? המרה לתמונות ואז חיבור מחודש לקובץ PDF אחד. אפשר גם לשנות את האיכות של התמונות כדי להיות בטוחים.

אפשר לעשות זאת עם כלים אונליינים או אפילו עם PDF בתשלום אבל למשתמשי מק – יש את imagemagick שמאפשר לעשות את זה בקלות. מתקינים עם brew c במק בקלות.

brew install imagemagick

עם לינוקס גם אפשר להתקין, אבל מומלץ לוודא שיש ghostscript. מתקינים עם:

sudo apt install imagemagick ghostscript -y
magick -density 300 -quality 100 YOUR_PDF_FILE.pdf ./YOUR_PDF_FILE.png

ואפשר להתקין אותה גם בחלונות – דרך אתר ההורדה. שימו לב שבתהליך ההתקנה חייבים לאשר הורדה של ghostscript שמטפלת בקבצי PDF.

התוכנה תמיר את ה-PDF. אם יש בו יותר מעמוד אחד, היא תיצור תמונות לפי הסדר. עם המסמך שלי, שמנה 50 דפים, היא התמודדה יפה. התמונות ימוספרו.

על מנת להחזיר את התמונות חזרה ל-PDF מאוחד, יש להקליד:

magick convert YOUR_PDF_FILE* ./pdf-without-issues.pdf

הכוכבית אמורה לטפל במקרים שיש כמה תמונות וזה עבד לי יופי.

האיכות של ה-PDF תרד אבל ברוב המקרים זה יהיה בסדר גמור. זו הדרך היחידה לנטרל גם מטא מידע וגם שכבות שמסתננות להן. לא לסמוך על הדפסות דיגיטליות אלא על המרות ממש, כמו פה.

כמובן שיש אלטרנטיבות טובות בהרבה ובתשלום (לפעמים גבוה) וכמובן גם כלים אונליינים חינמיים – אבל אם יש מידע סודי בקבצים שלכם, אולי זה לא הרעיון הכי טוב לעשות את זה באמצעים אונלייניים חינמיים.

אלופי אמר לי משהו מעניין אחרי שאמרתי לו שאפרסם את זה – הוא אמר שעשיתי את הבדיקות הנחוצות ועדיין נפלתי – אבל יש מצב שאני לא היחיד. זה נכון – בטח יש עוד מסמכים מושחרים שמסתובבים שם בחוץ ועלולים להיות גלויים. אם אתם רואים מסמכים כאלו? נסו להמיר אותם לוורד ולגרור את הריבועים השחורים. לכו תדעו מה תמצאו.

תודה רבה לאלופי מהמיק ומקווה שכולם ילמדו מהניסיון שלי.

פוסטים נוספים שכדאי לקרוא

בינה מלאכותית

יצירת mcp client

יצירת mcp client משלנו כדי שיתחבר לשרתי mcp שונים ויחבר את ה-LLM להכל באופן סטנדרטי.

בינה מלאכותית

Safeguards על מודל שפה גדול (LLM)

פוסט בשילוב עם פודקאסט וסרטון על ההגנות שאפשר להציב על LLM בסביבת פרודקשן

רספברי פיי

הרצת גו על רספברי פיי

עולם הרספברי פיי והמייקרים ניתן לתפעול בכל שפה – לא רק פייתון או C – כאן אני מסביר על גו

גלילה לראש העמוד