מונח חשוב מאד בתחום המידע הוא אנונימיזציה או התממה בעברית. מה הוא אומר? לקחת בעצם ערימה של מידע ולנקות ממנה את המידע המזהה – כך שלא יהיה ניתן לשלוף ממנו מידע אישי על משתמשים ספציפיים. למשל, אם יש לי מידע של של משתמשים שאני רוצה להעביר אותו תהליך התממה – אני אוריד מהם את שמות המשתמשים, הכתובות המדויקות שלהם והמידע שנותר הוא מידע שאפשר להשתמש בו לניתוחים שונים.
בואו ונדגים עם טכניקה פשוטה. נניח ויש לנו מידע מהסוג הזה:
שם מלא | טלפון | סטטוס לקוח | כתובת |
משה כהן | 03-6382020 | רגיל | חולון, כיכר סטרומה 12 |
יעקב לוי | 03-6382021 | פלטינום | בת-ים, קרן היסוד 10 |
אהרון ישראלי | 03-6382022 | רגיל | פתח תקווה, קפלן 11 |
מידע מותמם יכול להראות כך:
שם מלא | טלפון | סטטוס לקוח | כתובת |
*** *** | 03-****** | רגיל | חולון, ************** |
**** *** | 03-****** | פלטינום | בת-ים, ************** |
***** ****** | 03-****** | רגיל | פתח תקווה, ************ |
כך בעצם אפשר לבצע ניתוחים שונים על המידע. למשל לראות כמה לקוחות פלטינום יש מעיר מסוימת – מבלי לחשוש לחשוף מידע על לקוחות. זה מאד שימושי אם אנו מעבירים את המידע הלאה לחברה אחרת שתעשה ניתוחים וכו׳.
הבעיה היא שהפרקטיקה הפשוטה הזו היא לא כל כך פשוטה. בהרצאה הבאה, ששמחתי להעביר כ-Keynote בכנס PyData TLV – דיברתי על הסיכונים והבעיות שיכולות להיות בהליך הזה.
הראיתי שם כמה מודולים מעניינים להתממה בפייתון (בכל זאת – כנס PyData – ה-Py הוא עבור פייתון), קל להשתמש בהם, אבל צריך לזכור את הסיכונים המובנים בתהליך הזה ועליהם דיברתי בהרצאה + דוגמאות אמיתיות.