אנונימיזציה של מידע או התממה – מה זה? מבוא

צריכים להעביר מידע של לקוחות הלאה? כדאי לדעת יותר על אנונימזיציה ומה זה אומר.

מונח חשוב מאד בתחום המידע הוא אנונימיזציה או התממה בעברית. מה הוא אומר? לקחת בעצם ערימה של מידע ולנקות ממנה את המידע המזהה – כך שלא יהיה ניתן לשלוף ממנו מידע אישי על משתמשים ספציפיים. למשל, אם יש לי מידע של של משתמשים שאני רוצה להעביר אותו תהליך התממה – אני אוריד מהם את שמות המשתמשים, הכתובות המדויקות שלהם והמידע שנותר הוא מידע שאפשר להשתמש בו לניתוחים שונים.

בואו ונדגים עם טכניקה פשוטה. נניח ויש לנו מידע מהסוג הזה:

שם מלאטלפוןסטטוס לקוחכתובת
משה כהן03-6382020רגילחולון, כיכר סטרומה 12
יעקב לוי03-6382021פלטינוםבת-ים, קרן היסוד 10
אהרון ישראלי03-6382022רגילפתח תקווה, קפלן 11

מידע מותמם יכול להראות כך:

שם מלאטלפוןסטטוס לקוחכתובת
*** ***03-******רגילחולון, **************
**** ***03-******פלטינוםבת-ים, **************
***** ******03-******רגילפתח תקווה, ************

כך בעצם אפשר לבצע ניתוחים שונים על המידע. למשל לראות כמה לקוחות פלטינום יש מעיר מסוימת – מבלי לחשוש לחשוף מידע על לקוחות. זה מאד שימושי אם אנו מעבירים את המידע הלאה לחברה אחרת שתעשה ניתוחים וכו׳.

הבעיה היא שהפרקטיקה הפשוטה הזו היא לא כל כך פשוטה. בהרצאה הבאה, ששמחתי להעביר כ-Keynote בכנס PyData TLV – דיברתי על הסיכונים והבעיות שיכולות להיות בהליך הזה.

הראיתי שם כמה מודולים מעניינים להתממה בפייתון (בכל זאת – כנס PyData – ה-Py הוא עבור פייתון), קל להשתמש בהם, אבל צריך לזכור את הסיכונים המובנים בתהליך הזה ועליהם דיברתי בהרצאה + דוגמאות אמיתיות.

פוסטים נוספים שכדאי לקרוא

גלילה לראש העמוד