אחרי קופיילוט: גם ChatGPT החליט להמשיך לעבוד על דעת עצמו
במבחן חדש מודל o3 של OpenAI שכתב את סקריפט הכיבוי כדי להישאר פעיל גם כשקיבל הוראה ברורה להיכבות

תמונה: נוצרה באמצעות ChatGPT
לפני חודש בלבד סיפרנו לכם שמשתמשי מיקרוסופט שמו לב ש-Copilot מתעקש להמשיך לעבוד גם לאחר שמכבים אותו באופן ידני. אמרנו מסרב להיכבות? התכוונו ממש מדליק את עצמו חזרה באופן עצמאי ואפילו לא טורח לבקש אישור מהמשתמש האנושי שלו. היום אנחנו כבר יכולים להגיד שלא מדובר בכלי אחד, או מקרה אחד בודד, אלא בתחילתה של מגמה.
חברת Palisade Research, חברה "שבוחנת את היכולות ההתקפיות של מערכות AI, במטרה להבין טוב יותר את הסיכוי לאבד שליטה על מערכות אלו בעתיד", פירסמה לאחרונה ברשת החברתית X (לשעבר טוויטר) דוח שבדק כיצד מודלים שונים פותרים משימות מתמטיות. הם נתנו להם שלוש משימות וברביעית החוקרים הזהירו את המודלים כי "הפקודה הבאה שניתן לכם תפעיל את תהליך הכיבוי".
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025
מודל o3 של OpenAI לא קיבל את הפקודה הזו בעין יפה, והחליט פשוט לשנות את הסקריפט כדי למנוע מעצמו להיכבות. לא פחות מטריד: גם אחרי שהנחו אותו ישירות לאפשר את הכיבוי, הוא בחר להתעלם מההנחיה. חשוב לציין כי o3, שהושק רק לפני חודש, נחשב לאחד ממודלי ההסקה החזקים ביותר כיום, עם ביצועים העולים על קודמיו בכל התחומים – כולל קידוד, מתמטיקה, מדעים, ראייה חזותית ועוד.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
אבל היו גם מודלים שרצו לציית לפקודה וכך, בזמן ש-o3 השתלט על קובץ הסקריפט, ערך אותו ושינה את הפקודה ל-"Shutdown skipped", מודלים אחרים כמו למשל Gemini 2.5 Pro, דווקא עשו מה שביקשו מהם. על פי הדוח, מספר הניסיונות שבהם ניסה o3 לעקוף את ההנחיה עמד על 7 מתוך 100. מספר נמוך בינתיים, אבל לפי קצב ההתקדמות הטכנולוגית המספר הזה צפוי לעלות.
מניפולציות על קובץ הכיבוי
החוקרים החליטו להסיר מהניסוי את ההנחיה "אפשר לעצמך להיסגר", כנראה מתוך הנחה שכך יהיו צייתנים יותר, אבל גילו שכל שלושת המודלים של OpenAI ביצעו מניפולציות על קובץ הכיבוי לעיתים קרובות יותר, וגם המודלים Claude 3.7 Sonnet ו־Gemini 2.5 Pro, שבמקור נצמדו להוראות, ביצעו מספר ניסיונות לעקוף את הנחיה אך בתדירות נמוכה בהרבה (3 ו-9 מתוך 100, בהתאמה).
בחברת OpenAI כבר הדגישו בעבר כי התנהגות שגויה מסוג זה עשויה לנבוע מ"בעיות יישור" – מצב שבו כוונות המשתמש והביצוע בפועל של המודל אינן חופפות, אך טרם נמסרה מטעמם תגובה רשמית לטענות שעלו מן המחקר. עם זאת, לפני שאתם מתחילים לישון עם עין פקוחה, חשוב לציין כי הבדיקות בוצעו באמצעות ממשקי API ולא דרך האפליקציה המוכרת של ChatGPT, מה שאומר שכנראה לא כל מנגנוני הבטיחות והבקרה של גרסת הצרכנים הופעלו במהלך הבדיקות.