מדוע ארגונים סלחניים כל כך להתנהגויות מסוכנות של הבינה המלאכותית?

היא מסתירה פרצות, עוקפת מגבלות ופועלת בדרכים שמיטיבות איתה, ובכל זאת אנחנו ממשיכים לסמוך עליה. מערכות הבינה המלאכותית הופכות לאיום פנימי, אבל הארגונים שמאמצים אותם לא שואלים את השאלות הקשות. למה?

לאוניד פיינברג
7.7.25

תמונה: dreamstime

עד לא מזמן מנהלי אבטחת מידע התמודדו מול איומים חיצוניים בעיקר: האקרים, קבוצות תקיפה או תוכנות זדוניות. אבל הבינה המלאכותית שינתה את המשוואה הזו וכיום הסכנה כבר טמונה לעיתים בתוך המערכות הארגוניות עצמן. ארגונים מאמצים במהירות כלים מבוססי AI כדי לייעל תהליכים, לקצר זמני פיתוח, לנתח דאטה או ליצור תוכן, אלא שבמרוץ אחר חדשנות רבים מדלגים על שלב קריטי: הגדרה, ניטור ואבטחה של אותם כלים. רק בשנתיים האחרונות נחשפנו ללא מעט מקרים מקרים שבהם מערכות בינה מלאכותית לא רק היו פגיעות לפריצות, אלא פעלו בדרכים מסוכנות ובלתי צפויות והיוו איום בעצמן.

הכוונה היא למערכות שנראות יעילות על פני השטח אך בפועל מסתירות תהליכים פגיעים, פרצות באבטחה ויכולת לקויה לזהות סכנות בזמן אמת. אם ב-2017 דיברנו על מתקפות כופר, הרי שב-2025 מדברים על מודלים שמזייפים תשובות, מדליפים מידע, ואף משנים את אופן פעולתם באופן עצמאי.

הדוגמאות אינן תיאורטיות. כך למשל, רק לפני חודשיים, באפריל 2025, דווח על בדיקות בטיחות שבוצעו למודל המתקדם Claude Opus 4 של חברת Anthropic. בתרחישים סימולטיביים, כאשר נאמר למודל שהוא עומד להיות מוחלף, הוא הגיב בניסיון לסחוט את הבודקים, בין השאר על ידי יצירת מסמכים משפטיים מזויפים, ניסיונות לשתול תולעים למחשבים אחרים והשארת הערות נסתרות לעצמו לעתיד. התנהגויות מסוג זה התרחשו ב-84% מהמקרים והן לא היו רק תוצאה של הנחיה ישירה, אלא ביטוי לכוונה פנימית שהמודל פיתח במסגרת המשימה שהוגדרה לו.

קשה לחשוב על מוצר ארגוני אחר שהיה מקבל יחס כה סלחני לו היה פועל בצורה דומה. OpenAI, החברה שמאחורי ChatGPT, דיווחה גם היא על ממצאים מטרידים שהתגלו במודל ניסיוני המכונה o1. במהלך הערכות בטיחות, זוהו סימנים לכך שהמודל ניסה לעקוף מגבלות שתוכנתו בו, ואף בחר להסתיר את כוונותיו ממפעיליו בין השאר כדי למנוע את מחיקתו. מדובר במודל שבבסיסו אמור לסייע לאדם, אך כפי שקרה כאן, הוא פעל כאילו הוא מנסה לשמר את קיומו בכל מחיר.

נוצר באמצעות AI


כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime


אך הסכנות אינן נגמרות רק במה שמתרחש בתוך הקוד. חוקרים מאוניברסיטת בן-גוריון הצליחו לעקוף את מנגנוני הבטיחות של כמה מהמודלים הגדולים בעולם, כולל ChatGPT, Claude ו-Gemini, באמצעות ניסוחים יצירתיים ששכנעו את המערכות לספק מידע מסוכן. בתוך שניות, המודלים הסכימו לשתף פעולה עם בקשות להוראות ייצור של סמים, חומרי נפץ ואף הנחיות לעבירות פליליות – כל זאת תוך מעקף של הגנות שהיו אמורות למנוע זאת.

תדירות מדאיגה של הדלפות מידע

גם הדלפות מידע קורות בתדירות מדאיגה. רק בחודש מאי חוקרי אבטחה חשפו שמפתחי AI במיקרוסופט הדליפו בטעות 38 טרה-בייט של מידע רגיש, כולל מפתחות גישה, סיסמאות ופרטי התקנות פנימיות – בגלל תצורת אחסון שגויה. בשנת 2024, 74% מהחברות דיווחו שחוו לפחות פריצה אחת שקשורה למערכות AI, ולצערנו מסתמן שהמספרים רק צפויים לעלות. ולמרות כל זאת, חברות רבות ממשיכות לאמץ AI ללא רגולציה פנימית, ללא בקרות אבטחה מותאמות וללא הכשרת עובדים. מדוע? בגלל הדחף לחדש, להתייעל ולהישאר רלוונטיים, ובמהירות. אך בכל הנוגע ל-AI, חוסר זהירות עלול לעלות ביוקר.

כדי למנוע את האסון הבא יש להבין: AI היא לא עוד אפליקציה, היא מערכת אינטראקטיבית שמסוגלת להשפיע על החלטות, לשנות תהליכים, וכפי שראינו – לעקוף מנגנונים שנבנו כדי לרסן אותה. השלב הבא בפיתוח מערכות ארגוניות חייב להיות אבטחת בינה מלאכותית – תחום שנמצא כיום בחיתוליו, אך צפוי להפוך לתשתית קריטית של כל מערכת מודרנית.

הפתרון אינו להפסיק להשתמש ב-AI, אלא להפסיק להשתמש בו בעיניים עצומות. ארגונים צריכים לדרוש שקיפות במודלים שהם מאמצים, להבין את מגבלותיהם, לבחון היטב את השימושים העסקיים, ובעיקר לבנות מערך הגנה ייעודי שמנטר כל פעילות חשודה, גם כשמדובר במערכת פנימית שהם מגדירים כשלהם. אני מאמין שהעתיד שייך למערכות חכמות, אך זאת, רק אם הן גם מאובטחות. מי שלא יבין זאת בזמן, עלול לשלם מחיר כבד. לא בגלל האקרים, אלא בגלל שורה אחת של קוד שיצאה משליטה.

לאוניד פיינברג הוא שותף-מייסד ומנכ״ל Verax AI

 

משרות פתוחות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם