מי מנצל את האמון שלנו במודלים?
הרעלת נתונים ו"טיפוח" מודלים מאיימים על אמינות ה-AI כבר היום

אימצנו במהירות ודי באהבה את מודלי השפה הגדולים (LLMs) כמו ChatGPT, Claude ו-Gemini, והם הפכו עבורנו למרכז ידע בעולמנו הדיגיטלי – הם כותבים אימיילים, יוצרים קוד ואפילו מספקים ייעוץ רפואי. אנו סומכים עליהם כמעט לחלוטין, אבל ייתכן שהאמון הזה בנוי על יסודות רעועים?
סוג חדש ומתוחכם של איומי סייבר – הרעלת נתוני בינה מלאכותית (AI Data Poisoning) וקרוב משפחתה המניפולטיבי יותר, "טיפוח" מודלי שפה גדולים (LLM Grooming) – מגיח מהצללים ומאיים להפוך את הכלים העוצמתיים הללו לכלי תעמולה, הונאה והטעיה המונית. זה לא תרחיש דיסטופי רחוק, זה קורה עכשיו ומערער את עתידנו המונע על ידי AI.
כמו תלמיד שלומד בספר הלא נכון
בבסיסה, הרעלת נתוני בינה מלאכותית היא פעולה מכוונת של השחתת הנתונים המשמשים לאימון של מודל למידת מכונה. זה כמו שתלמיד ישאב את הידע שלו מספר לימוד משובש. המטרה היא להחדיר פגיעויות, הטיות או דלתות אחוריות ספציפיות שתוקף יוכל לנצל בהמשך. לדוגמה, מודל זיהוי תמונה "מורעל" עלול להיות מאומן לסווג באופן שגוי תמרור עצור כתמרור הגבלת מהירות בתנאים עדינים וספציפיים.
לעומת זאת, "טיפוח" מודלי שפה גדולים הוא צורה מורכבת ומסוכנת יותר של התקפה זו. זוהי הרעלה מבוססת תעמולה שמטרתה לא רק לגרום לשגיאות, אלא לעצב באופן עדין את "תפיסת העולם", האידיאולוגיה או סגנון השיחה של המודל. במקום ללמד את המודל לבצע טעות אחת, "טיפוח" מלמד אותו להעדיף באופן עקבי נרטיב פוליטי מסוים, לקדם מוצר מסחרי ספציפי או להחדיר באופן עדין מסרים גזעניים או קיצוניים לתשובותיו. לא מדובר בשבירת במודל, אלא יותר לכיפוף המציאות שלו.
כפי שאומרים מומחים בתעשייה: "אנו בונים מערכות עם אינטליגנציה על-אנושית, אך עם אבטחה תת-אנושית. הנתונים עצמם, המעניקים למודלים אלו את כוחם, הם גם הפגיעות הגדולה ביותר שלהם".
מכניקת הרעל
ליריבים יש מספר הולך וגדל של דרכים להחדיר את הנתונים המזיקים הללו, ולעתים קרובות הם מנצלים את קנה המידה העצום שהופך את מודלי השפה הגדולים לעוצמתיים כל כך. הנה כמה אפשרויות, רק כדי לסבר את האוזן.
גירוד הרשת (Web Scraping): מודלי שפה גדולים מאומנים על כמויות אדירות של תוכן מהאינטרנט. תוקפים יכולים להקים רשתות של אתרי חדשות מזויפים או בלוגים – בדומה לרשת שהתגלתה לאחרונה, שיצרה רשת של אתרים שדחפו תוכן פרו-אוטוקרטי במיוחד כדי שייגרדו על ידי זחלני בינה מלאכותית.
"כוונון עדין" (Fine-Tuning) זדוני: ארגונים רבים מבצעים כוונון עדין למודלים בסיסיים על בסיס נתונים קטן וייעודי כדי להתמחות בהם. תוקף יכול לשבש את מערך הנתונים המשני הזה, ולהחדיר מנה מרוכזת ביותר של "רעל" שיש לה השפעה גדולה על ההתנהגות הסופית של המודל.
מניפולציית הוראות והעדפות: מודלי שפה משוכללים לעתים קרובות באמצעות למידת חיזוק ממשוב אנושי (RLHF), שבה אנשים מדרגים תגובות שונות של המודל. תוקפים יכולים להסתנן לתהליך זה או להרעיל את מערכי נתוני ההוראות וללמד את המודל להעדיף תפוקות מוטות או מזיקות. החלק המפחיד הוא העדינות. מחקר הראה שאפילו 0.1% של נתונים זדוניים במערך אימון ענק יכולים להספיק כדי להרעיל בהצלחה מודל, וליצור "דלת אחורית" או להחדיר הטיה מתמשכת שכמעט בלתי אפשרי לזהות באמצעות בדיקות סטנדרטיות.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
חשוב להדגיש שאלו אינן רק פגיעויות תיאורטיות. אנו כבר רואים את ההשלכות בשטח:
הפריצה של "DAN": ראשי תיבות של "Do Anything Now" היא דוגמה מפורסמת להזרקת פקודות (Prompt Injection), שבה משתמשים יוצרים פקודות מתוחכמות, שמרמות מודל לעקוף את פרוטוקולי הבטיחות שלו. בעוד שזו אינה הרעלת נתונים בפני עצמה, היא מדגימה עד כמה קל לשבש את ההתנהגות המתוכננת של המודל. התקפות הרעלה יכולות להיחשב כהטמעת פגיעות דמוית "DAN" באופן קבוע בליבת המודל.
מידע כוזב כשירות: חוקרי אבטחה הדגימו הוכחות היתכנות שבהן ניתן לתפעל מודל שפה מורעל כדי ליצור מאמרי חדשות מזויפים ומשכנעים ביותר התומכים בנרטיב ספציפי, או לייצר קוד הונאה שנראה לגיטימי אך מכיל פגמי אבטחה נסתרים. במקרה מפורסם חברת תעופה נתבעה והורשעה לאחר שצ'אט-בוט שירות הלקוחות שלה, שככל הנראה פעל על בסיס מידע חלקי או שגוי (סוג של "הרעלה" לא מכוונת), נתן ללקוח מידע שקרי על "תעריפי אבל" (*כרטיס טיסה מוזל או גמיש שמציעות חלק מחברות התעופה לנוסעים שנוסעים עקב מקרה מוות או מצב חירום רפואי במשפחה קרובה). מקרה זה יצר תקדים מכריע: ארגונים אחראים על התפוקות של הבינה המלאכותית שלהם, בין שהן תופעלו בכוונה ובין שלא.
אבל המאבק לא אבוד. תחום חדש של אבטחת בינה מלאכותית צומח במהירות, והוא מתמקד בבניית הגנות למערכות מורכבות אלה. אסטרטגיות המפתח כוללות:
בדיקת מקורות נתונים: הצעד החשוב ביותר הוא אבטחת שרשרת האספקה. זה כרוך בבדיקה קפדנית של מקורות הנתונים, שימוש בשיטות קריפטוגרפיות כדי לוודא את שלמותם וסינון של קבוצות אימון לאיתור חריגות סטטיסטיות שיכולות להצביע על מניפולציה.
אימון התנגדותי (Adversarial Training): גישה זו כוללת אימון מכוון של מודלים על דוגמאות של נתונים מורעלים בסביבה מבוקרת. כך בעצם המודלים "מתחסנים" מפני התקפות עתידיות משום שהם למדו לזהות ולהתעלם מקלטים זדוניים.
ביקורת ו"צוותים אדומים" מתמשכים: בדומה לאבטחת סייבר מסורתית, אבטחת בינה מלאכותית דורשת ערנות מתמדת. ארגונים חייבים לבדוק באופן רציף את המודלים שלהם לאיתור התנהגות בלתי צפויה ולהעסיק "צוותים אדומים" של מומחים כדי לחפש באופן יזום פגיעויות ולתקן אותן.
שינוי גישה
מודלי שפה גדולים טומנים בחובם הבטחה להאיץ את ההתקדמות האנושית בדרכים בלתי נתפסות, אך הבטחה זו תלויה ביכולתנו לסמוך עליהם. איומי הרעלת נתונים ו"טיפוח" מודלים אינם תקלות קטנות שיתוקנו בהמשך; הם אתגרים מהותיים לשלמות הבינה המלאכותית.
הרעיון הוא לעבור מגישה של "תנועה מהירה ושבירת דברים" לגישה של "בנייה בטוחה ואימות". ארגונים המיישמים בינה מלאכותית חייבים להתייחס לאבטחת המודלים באותה קפדנות שבה הם מתייחסים לאבטחת רשת, ולהשקיע בהגנות חזקות ובניטור מתמשך, וקובעי המדיניות צריכים לפעול לקראת קביעת תקנים לשקיפות נתונים ואחריות מודלים.
אבטחת הבינה המלאכותית שלנו אינה רק בעיה טכנית, זהו הכרח חברתי. על ידי מתן עדיפות לשלמות הבינה המלאכותית כיום, נוכל להבטיח שעתיד הידע והמידע יהיה של התקדמות משותפת, ולא כזה שנחרב בשקט על ידי נתונים משובשים.
גיא חורש גונין הוא מהנדס פריסייל בבינת תקשורת מחשבים