Safeguards על מודל שפה גדול (LLM)

פוסט בשילוב עם פודקאסט וסרטון על ההגנות שאפשר להציב על LLM בסביבת פרודקשן

כשאנחנו מטמיעים LLM במוצר שלנו, אנחנו צריכים להזהר שתוקפים לא ינצלו את המודל להתקפות שונות. אחת מהדרכים למניעת התקפה כזו היא סוג של הגנה שנקראת Safeguards והיא באה out of the box בתשתיות ענן מאובטחות (לכל ספק יש את השם שלו, ב-AWS קוראים לזה למשל Guardrails) או עם חבילות קוד פתוח. ה-Safeguards האלו הן ממש כמו firewall. בודקות את השאילתה של הלקוח בכניסה ואת התשובה של ה-LLM ביצירה.

בפודקאסט עושים תוכנה עם בועז לביא, ניב רבין שהוא קולגה שלי בסייברארק ואני דיברנו על Safeguards בכלל ו-Guardrails בפרט ועל הגישות השונות. משימוש ב-Safeguards באופן כללי ועד גישה חדשה ומעניינת – שימוש ב-LLM as a judge – בינה מלאכותית נוספת שבוחנת את הפלט ואת הקלט כדי לנסות ולהבין אם יש בעיה ממשית שם.

ראשית – הפרק עצמו להאזנה בכל הפלטפורמות וגם פה כ-embedd

עכשיו כמיטב המסורת אפרט קצת.

למה צריך הגנות על מוצר LLM?

בתחילת ימי ה-LLM, לא מעט אנשים מצאו דרכים לגרום ל-LLM להוציא פלט מביך. למשל – לתת הוראות ליצירת בקבוקי תבערה או שירים או הודעות גזעניות. בעוד שזה היה מעניין מבחינה תיאורטית ומצחיק מאד מהבחינה התקשורתית – מהבחינה הפרקטית זה פחות רלוונטי. בעידן של מודלים שאפשר להריץ מקומית (למשל עם ollama) – אף אחד לא ילך ויתחיל לשגע LLM של מישהו אחר בסיפורי סבתא כדי להוציא פלט בעייתי.

מתי זה מתחיל להיות בעייתי? כשל-LLM יש גישה לנתונים של החברה שאנחנו לא רוצים שיצאו החוצה – למשל הזמנות, שמות של לקוחות או כל דבר אחר שיכול להיות בעייתי מבחינת PII. עוד בעיה שיכולה להיות זה הפעלה של API שה-LLM קיבל גישה להפעיל. במקרה הזה תוקף מבצע התקפה באמצעות טקסט בלבד וגורם ל-LLM לחשוף מידע או לבצע פעולות שונות.

למשל – לבקש ממנו מידע על הלקוחות האחרונים של החברה, לבקש ממנו לשלוח מייל למפעיל שלו או לעובדי החברה (במיוחד LLM שאחראי על תמיכה) כאשר מכניסים תוכן עם payload לתקיפה (למשל קוד שגונב עוגיות, קוד שמדליף מידע או אפילו קישור זדוני שנועד לשכנע את התומך התמים להתקין משהו).

יש באמת אינספור דרכים להתקפה ובאמת בגלל שה-LLM הוא לא דטרמניסטי, בהתחלה באמת שברו את הראש על העניין הזה אבל עכשיו לפחות הפתרון הבסיסי הוא די out of the box. אפשר להכנס לסרטון הזה ולראות איך אני וניב עוברים על הפתרון ב-AWS console.

יש כמובן פתרונות דומים בכל ספקי הענן וגם פתרונות מבוססי קוד פתוח. לא משנה במה אתם בוחרים – כדאי לבחור אחד. בגדול, להעלות LLM כמוצר בלי פתרון כזה בשלב הראשון זה רעיון פחות טוב – בדיוק כמו להעלות אתר בלי firewall.

אבל אפשר לקחת אותו הלאה. בפוסט הזה (אנגלית), ניב תיאר את שילוב השיטה עם LLM as a judge וגם הביא תוצאות מאד משכנעות. אם אתם מטמיעים LLM בחברה גדולה ורוצים להגביר את האבטחה – במיוחד אם ה-LLM מקבל גישה למידע או לפעולות – הפוסט הזה הוא נקודה מאד מוצלחת להתחיל ממנה.

העולם הזה הולך ומתפתח ואי אפשר להתעלם מנושא האבטחה וזה אתגר שחייבים לחשוב עליו.

אהבתם את התוכן שלי? נסו את ספרי הלימוד שלי

פרויקט ספרי לימוד התכנות שלי עם אלפי קוראים ותמיכה של חברות מובילות נועד לאפשר לכל אחד ואחת ללמוד תכנות מעשי

לחצו כאן

ללמוד תכנות בעברית

ללמוד תכנות מעשי מאפס, בעברית ובקלות עם הספר שלי ״ללמוד ג׳אווהסקריפט בעברית״

לחצו כאן

פוסטים נוספים שכדאי לקרוא

יסודות בתכנות

Decoupling ו-Coupling בהנדסת תוכנה

הסבר על מושג מרכזי בהנדסת תוכנה ובכתיבת קוד שכדאי להכיר במיוחד כשמנחים LLM בכתיבת קוד.

נובמבר 2, 2025 6 תגובות

יסודות בתכנות

איך TCP עובד? מבט מעמיק

הסבר מעמיק מתחת למנוע על איך תקשורת TCP עובדת כולל ניתוח פקטות.

ינואר 18, 2026 10 תגובות

בינה מלאכותית

לא, אי איי לא הולך להחליף אתכם. אני יודע כי הוא לא החליף אותי

המודלים החדשים יודעים לשחזר את העבר במהירות שיא, אבל הם עומדים חסרי אונים כשצריך להמציא את העתיד או לשאת באחריות לטעויות. תשובה מנומקת למאמר שמעורר סערה וגם פרק מיוחד בפודקאסט

פברואר 23, 2026 תגובה אחת

Git

הסכנה הבלתי נראית: Commit messages

וייב קודר כתב אפליקציה נאה, אך לא ידע שיש סכנת דלף מידע מהיסטורית הקומיטים

נובמבר 30, 2025 3 תגובות

יסודות בתכנות

הסבר קל ופשוט על Reinforcement Learning

הסבר פשוט למתכנתים שמסביר על איך למידה מחוזקת עובדת – הרבה יותר פשוט ממה שחשבתם ואפשר גם בג׳אווהסקריפט!

ספטמבר 28, 2025 אין תגובות

פתרונות ומאמרים על פיתוח אינטרנט

לא פרצו לנו, רק דלף לנו – לקחים טכניים מפרשת אלקטור

פסק הדין בפרשת תביעת של הדיבה אלקטור הוא קריאת השכמה טכנולוגית ומשפטית: מההגדרה המשפטית ל"פריצה", דרך החשיבות הקריטית של פרוטוקול ביעור נתונים אמיתי, ועד למה שבאמת קורה כשמערכות אבטחה מסתמכות על לוגים חסרים.

דצמבר 30, 2025 3 תגובות

טען עוד

Safeguards על מודל שפה גדול (LLM)

למה צריך הגנות על מוצר LLM?

אהבתם את התוכן שלי? נסו את ספרי הלימוד שלי

ללמוד תכנות בעברית

רן בר-זיק

תגובה אחת

השארת תגובה

פוסטים מומלצים

פוסטים נוספים שכדאי לקרוא

Decoupling ו-Coupling בהנדסת תוכנה

איך TCP עובד? מבט מעמיק

לא, אי איי לא הולך להחליף אתכם. אני יודע כי הוא לא החליף אותי

הסכנה הבלתי נראית: Commit messages

הסבר קל ופשוט על Reinforcement Learning

לא פרצו לנו, רק דלף לנו – לקחים טכניים מפרשת אלקטור