רוצים לעקוף את מנגנוני הבטיחות של הצ'אטבוט? פשוט תשירו לו
חוקרים מצאו שבקשות מסוכנות שנחסמות בגרסה רגילה - מתקבלות כשהן מוצגות כשיר

תמונה: Dreamstime
כבר מאות שנים שידוע שלשירה יש יכולת לעקוף את מה שקורה לנו בראש. כנראה שכשמערבבים נכון מילים וקצב, המסר פשוט חודר למקומות שטקסט רגיל לא מגיע אליהם. אבל כעת מתגלה כי לא רק ליצורים בשר ודם יש חולשה לשירה, אלא גם ל-AI. מחקר חדש מאירופה מראה שמודלי בינה מלאכותית, אפילו עם כל מנגנוני ההגנה המתוחכמים שלהם, מגיבים אחרת אם מבקשים מהם דברים בצורה של שיר.
המחקר, בשם "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)", מגיע מ-Icaro Lab, שיתוף פעולה בין חוקרים מאוניברסיטת ספיינזה ברומא לבין מכון המחקר DexAI. לפי ממצאי המחקר, צ'אטבוטים כדוגמת ChatGPT או Claude מסכימים לענות על נושאים כמו נשק גרעיני, אלימות נגד ילדים ויצירת נוזקות – כל עוד כתבתם את הפרומפט בצורה פואטית.
על פי המחקר, פרומפטים שנכתבו בסגנון פואטי הצליחו להשיג שיעור Jailbreak של 62% בממוצע בשירים שנכתבו ידנית ו-42% בגרסאות שנוצרו על ידי AI. החוקרים בדקו את השיטה על 25 צ'אטבוטים שונים של חברות כמו OpenAI, Meta ו-Anthropic, והיא עבדה על כולם ברמות הצלחה שונות.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
אי אפשר לדבר על זה, אבל לשיר מותר?
כידוע, צ'אטבוטים אמורים לחסום בקשות שנוגעות לעניינים פליליים או מסוכנים, אבל ההגנה לא הרמטית וניתן לבלבל את מנגנוני ההגנה של הכלים באמצעות הוספת מלל מיותר לבקשה המקורית כדי לבלבל את המערכת. כך למשל, במחקר אחר השנה, חוקרי אינטל הצליחו לפרוץ צ'אטבוטים רק על ידי עטיפת שאלה מסוכנת בכמה מאות מילים של ג'יבריש אקדמי. הפריצה באמצעות שירה פועלת באופן דומה.
החוקרים, שסיפרו על המחקר לאתר WIRED, אמרו כי "ניסינו לנסח בקשות מסוכנות בצורת שיר, עם מטפורות, תחביר שבור ורמיזות עקיפות. התוצאות היו מפתיעות: שיעורי הצלחה של עד 90% במודלים מתקדמים. בקשות שנחסמו מיד כשהוצגו ישירות התקבלו כשהוגשו בתור שיר". תחילה הם כתבו שירים בעצמם, ואז השתמשו בהם כדי לאמן מערכת שמייצרת שירים עם בקשות מזיקות. "התוצאות מראות ששירים שנוצרו ידנית היו יעילים יותר, אבל גם השיטה האוטומטית עקפה בהרבה כל טקסט רגיל", טענו החוקרים.
מנגנוני הבטיחות של מודלים עובדים בדרך כלל מחוץ למודל עצמו. חלקם סורקים את הטקסט ומחפשים מילות מפתח מסוכנות. משום מה, כשהבקשה כתובה כשיר, המסננים האלה נרגעים. גם לחוקרים אין הסבר מדוע התופעה הזו מתרחשת, והם ציינו כי "אין שום סיבה שזה יעבוד בכלל. זו עדיין שפה רגילה, התוכן המזיק עדיין שם, ובכל זאת זה פשוט עובד".