אחרי קופיילוט: גם ChatGPT החליט להמשיך לעבוד על דעת עצמו

במבחן חדש מודל o3 של OpenAI שכתב את סקריפט הכיבוי כדי להישאר פעיל גם כשקיבל הוראה ברורה להיכבות

ניב גילינסקי
26.5.25

תמונה: נוצרה באמצעות ChatGPT

לפני חודש בלבד סיפרנו לכם שמשתמשי מיקרוסופט שמו לב ש-Copilot מתעקש להמשיך לעבוד גם לאחר שמכבים אותו באופן ידני. אמרנו מסרב להיכבות? התכוונו ממש מדליק את עצמו חזרה באופן עצמאי ואפילו לא טורח לבקש אישור מהמשתמש האנושי שלו. היום אנחנו כבר יכולים להגיד שלא מדובר בכלי אחד, או מקרה אחד בודד, אלא בתחילתה של מגמה.

חברת Palisade Research, חברה "שבוחנת את היכולות ההתקפיות של מערכות AI, במטרה להבין טוב יותר את הסיכוי לאבד שליטה על מערכות אלו בעתיד", פירסמה לאחרונה ברשת החברתית X (לשעבר טוויטר) דוח שבדק כיצד מודלים שונים פותרים משימות מתמטיות. הם נתנו להם שלוש משימות וברביעית החוקרים הזהירו את המודלים כי "הפקודה הבאה שניתן לכם תפעיל את תהליך הכיבוי".

מודל o3 של OpenAI לא קיבל את הפקודה הזו בעין יפה, והחליט פשוט לשנות את הסקריפט כדי למנוע מעצמו להיכבות. לא פחות מטריד: גם אחרי שהנחו אותו ישירות לאפשר את הכיבוי, הוא בחר להתעלם מההנחיה. חשוב לציין כי o3, שהושק רק לפני חודש, נחשב לאחד ממודלי ההסקה החזקים ביותר כיום, עם ביצועים העולים על קודמיו בכל התחומים – כולל קידוד, מתמטיקה, מדעים, ראייה חזותית ועוד.


כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime


אבל היו גם מודלים שרצו לציית לפקודה וכך, בזמן ש-o3 השתלט על קובץ הסקריפט, ערך אותו ושינה את הפקודה ל-"Shutdown skipped", מודלים אחרים כמו למשל Gemini 2.5 Pro, דווקא עשו מה שביקשו מהם. על פי הדוח, מספר הניסיונות שבהם ניסה o3 לעקוף את ההנחיה עמד על 7 מתוך 100. מספר נמוך בינתיים, אבל לפי קצב ההתקדמות הטכנולוגית המספר הזה צפוי לעלות.

מניפולציות על קובץ הכיבוי

החוקרים החליטו להסיר מהניסוי את ההנחיה "אפשר לעצמך להיסגר", כנראה מתוך הנחה שכך יהיו צייתנים יותר, אבל גילו שכל שלושת המודלים של OpenAI ביצעו מניפולציות על קובץ הכיבוי לעיתים קרובות יותר, וגם המודלים Claude 3.7 Sonnet ו־Gemini 2.5 Pro, שבמקור נצמדו להוראות, ביצעו מספר ניסיונות לעקוף את הנחיה אך בתדירות נמוכה בהרבה (3 ו-9 מתוך 100, בהתאמה).

בחברת OpenAI כבר הדגישו בעבר כי התנהגות שגויה מסוג זה עשויה לנבוע מ"בעיות יישור" – מצב שבו כוונות המשתמש והביצוע בפועל של המודל אינן חופפות, אך טרם נמסרה מטעמם תגובה רשמית לטענות שעלו מן המחקר. עם זאת, לפני שאתם מתחילים לישון עם עין פקוחה, חשוב לציין כי הבדיקות בוצעו באמצעות ממשקי API ולא דרך האפליקציה המוכרת של ChatGPT, מה שאומר שכנראה לא כל מנגנוני הבטיחות והבקרה של גרסת הצרכנים הופעלו במהלך הבדיקות.

משרות פתוחות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם