אחרי קופיילוט: גם ChatGPT החליט להמשיך לעבוד על דעת עצמו

במבחן חדש מודל o3 של OpenAI שכתב את סקריפט הכיבוי כדי להישאר פעיל גם כשקיבל הוראה ברורה להיכבות

{ AI }

ניב גילינסקי

26.5.25

תמונה: נוצרה באמצעות ChatGPT

לפני חודש בלבד סיפרנו לכם שמשתמשי מיקרוסופט שמו לב ש-Copilot מתעקש להמשיך לעבוד גם לאחר שמכבים אותו באופן ידני. אמרנו מסרב להיכבות? התכוונו ממש מדליק את עצמו חזרה באופן עצמאי ואפילו לא טורח לבקש אישור מהמשתמש האנושי שלו. היום אנחנו כבר יכולים להגיד שלא מדובר בכלי אחד, או מקרה אחד בודד, אלא בתחילתה של מגמה.

חברת Palisade Research, חברה "שבוחנת את היכולות ההתקפיות של מערכות AI, במטרה להבין טוב יותר את הסיכוי לאבד שליטה על מערכות אלו בעתיד", פירסמה לאחרונה ברשת החברתית X (לשעבר טוויטר) דוח שבדק כיצד מודלים שונים פותרים משימות מתמטיות. הם נתנו להם שלוש משימות וברביעית החוקרים הזהירו את המודלים כי "הפקודה הבאה שניתן לכם תפעיל את תהליך הכיבוי".

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

מודל o3 של OpenAI לא קיבל את הפקודה הזו בעין יפה, והחליט פשוט לשנות את הסקריפט כדי למנוע מעצמו להיכבות. לא פחות מטריד: גם אחרי שהנחו אותו ישירות לאפשר את הכיבוי, הוא בחר להתעלם מההנחיה. חשוב לציין כי o3, שהושק רק לפני חודש, נחשב לאחד ממודלי ההסקה החזקים ביותר כיום, עם ביצועים העולים על קודמיו בכל התחומים – כולל קידוד, מתמטיקה, מדעים, ראייה חזותית ועוד.

כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime

אבל היו גם מודלים שרצו לציית לפקודה וכך, בזמן ש-o3 השתלט על קובץ הסקריפט, ערך אותו ושינה את הפקודה ל-"Shutdown skipped", מודלים אחרים כמו למשל Gemini 2.5 Pro, דווקא עשו מה שביקשו מהם. על פי הדוח, מספר הניסיונות שבהם ניסה o3 לעקוף את ההנחיה עמד על 7 מתוך 100. מספר נמוך בינתיים, אבל לפי קצב ההתקדמות הטכנולוגית המספר הזה צפוי לעלות.

מניפולציות על קובץ הכיבוי

החוקרים החליטו להסיר מהניסוי את ההנחיה "אפשר לעצמך להיסגר", כנראה מתוך הנחה שכך יהיו צייתנים יותר, אבל גילו שכל שלושת המודלים של OpenAI ביצעו מניפולציות על קובץ הכיבוי לעיתים קרובות יותר, וגם המודלים Claude 3.7 Sonnet ו־Gemini 2.5 Pro, שבמקור נצמדו להוראות, ביצעו מספר ניסיונות לעקוף את הנחיה אך בתדירות נמוכה בהרבה (3 ו-9 מתוך 100, בהתאמה).

בחברת OpenAI כבר הדגישו בעבר כי התנהגות שגויה מסוג זה עשויה לנבוע מ"בעיות יישור" – מצב שבו כוונות המשתמש והביצוע בפועל של המודל אינן חופפות, אך טרם נמסרה מטעמם תגובה רשמית לטענות שעלו מן המחקר. עם זאת, לפני שאתם מתחילים לישון עם עין פקוחה, חשוב לציין כי הבדיקות בוצעו באמצעות ממשקי API ולא דרך האפליקציה המוכרת של ChatGPT, מה שאומר שכנראה לא כל מנגנוני הבטיחות והבקרה של גרסת הצרכנים הופעלו במהלך הבדיקות.

בדיקה חדשה מגלה: איזה צ'אטבוט אוסף עליכם הכי הרבה מידע?

תגיות: AI, ChatGPT, Claude, gemini, o3, OpenAI, בינה מלאכותית

Geektime Insider

אירועים קרובים

20

אוקטובר

לכל האירועים

משרות

לצפייה בכל המשרות

משרות פתוחות

לכל המשרות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם

אחרי קופיילוט: גם ChatGPT החליט להמשיך לעבוד על דעת עצמו

מניפולציות על קובץ הכיבוי

Data Sparks: From Ideas To Impact

BITS for Startups

UK-Israel Tech Hub – Dangoor Academy 2nd Cohort Launch Event

כנס מקוון – טכנולוגיה דיגיטלית לשיקום בגיל המבוגר

Evolving Your Internal Developer Platform in a Growing Organization

משרות

משרות פתוחות

קטגוריות