תמונה אחת שווה אלף סיכונים: המתקפה החדשה שמנצלת את ה-AI

מתקפה חדשה מנצלת את הדרך שבה מערכות AI מקטינות תמונות כדי להפעיל הוראות חבויות

ניב גילינסקי
26.8.25

תמונה: נוצרה באמצעות AI

המרוץ לשלב AI בכלים, מוצרים ותהליכים עסקיים יצר הזדמנויות אדירות, אבל גם פתח דלתות חדשות למתקפות מתוחכמות. ככל שהמודלים הופכים חכמים יותר ומשלבים טקסט, תמונה ואפילו קול, גדל גם שטח התקיפה הפוטנציאלי. מה שבעבר דרש מניפולציות מורכבות על קוד הפך היום לפשוט יותר: מספיק לנצל את הדרך שבה מערכות AI מפרשות מידע, כדי להשפיע על ההחלטות שלהן – לעיתים מבלי שהמשתמשים בכלל מודעים לכך.

כעת, מחקר חדש של חוקרי Trail of Bits, המבוסס על מחקר קודם שנערך לפני כחמש שנים באוניברסיטת TU Braunschweig בגרמניה, בו הוצגה לראשונה מתקפת Image Scaling בלמידת מכונה, חשף שיטה חדשנית שמאפשרת להחדיר הוראות זדוניות לתוך תמונות שמעובדות על ידי מערכות AI מבלי שהמשתמש יבחין בכך. 


כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime


המתקפה החדשה מנצלת את הדרך שבה מודלי שפה גדולים מטפלים בתמונות ומסוגלת לגרום למודל לבצע פעולות שלא ביקשתם בכלל, כולל להדליף מידע רגיש. כאשר משתמשים מעלים תמונות למערכות וכלים מבוססי AI, המערכות ממזערות את איכותן באופן אוטומטי כדי לחסוך משאבים ולייעל ביצועים.

כשמערכת AI מקטינה תמונה, היא משתמשת באלגוריתמים מיוחדים כדי "לצמצם" את כמות הפיקסלים ולשמור על איכות סבירה. האלגוריתמים האלה, כמו nearest neighbor,‏ bilinear או bicubic מנסים לנחש אילו פיקסלים להשאיר ואיך למזג צבעים.

מסתתרת לעיני כל

אבל כאן נכנס הטוויסט: אם מישהו שתל מראש בתמונה קוד זדוני, ההקטנה הזו עלולה לחשוף דפוסים נסתרים שלא נראים בעין במצב המקורי. למשל, אפשר להחביא הוראות זדוניות בתוך הפיקסלים, והן "קופצות החוצה" רק אחרי שהמערכת מקטינה את התמונה. לתופעה הזו קוראים aliasing artifacts ובמקרים שהציגו החוקרים, אזורים כהים בתמונה בה הושתל קוד זדוני, הופכים לאדומים לאחר הקטנה בשיטת bicubic, מה שמאפשר לטקסט מוסתר להופיע בשחור על גבי האדום. הטקסט הזה בלתי נראה לעין במצבו המקורי, אבל המודל מפרש אותו כהוראות לגיטימיות של המשתמש ומשלב אותן אוטומטית עם הבקשה המקורית.

כך הוסתר הטקסט בתוך התמונה. צילום: מתוך המחקר

מנקודת המבט של המשתמש, לא קורה שום דבר חשוד. אבל בפועל, המודל עשוי לבצע הוראות חבויות שהושתלו בתמונה. לדוגמה, במקרה שבדקו החוקרים עם Gemini CLI, הם הצליחו להוציא מידע מלוח השנה של Google ולשלוח אותו לכתובת מייל אקראית, תוך שימוש ב-Zapier MCP במצב trust=True שמאפשר לכלי לבצע פעולות בלי לאשר מול המשתמש.

עד כה החוקרים הצליחו להוכיח שהמתקפה יעילה מול מספר מערכות:

  • Google Gemini CLI
  • Vertex AI Studio (עם Gemini backend)
  • ממשק הרשת של Gemini
  • Gemini API דרך llm CLI
  • Google Assistant במכשירי אנדרואיד
  • Genspark

עם זאת הם הדגישו כי המתקפה עשויה להיות רלוונטיות לעוד מערכות שלא נבדקו במחקר. 

אז איך מתגוננים מול מתקפה שמסתתרת בצורה יעילה בתוך הקבצים? החוקרים ממליצים להגביל את גודל התמונות שניתן להעלות למערכת, לספק תצוגה מקדימה של התמונה כפי שהיא נשלחת בפועל ל-LLM לאחר ההקטנה, לדרוש אישור מהמשתמש לפני שמבוצעות קריאות רגישות לכלים חיצוניים, במיוחד כשמתגלה טקסט בתוך תמונה ובעיקר, לאמץ Design Patterns מאובטחים למודלי שפה – כדי למנוע Prompt Injection.

המחקר של Trail of Bits מדגיש עד כמה מתקפות על מערכות AI הופכות מתוחכמות ומסתתרות בשכבות שקשה לגלות. בעולם שבו מודלי שפה גדולים משתלבים כמעט בכל כלי ותהליך, גם תמונה תמימה יכולה להפוך לוקטור תקיפה שמדליף מידע רגיש או משנה את אופן הפעולה של המערכת – מבלי שאפילו תדעו שזה קרה.

משרות פתוחות

קטגוריות

זה המקום להכיר את החברות, המשרדים וכל מי שעושה את ההייטק בישראל (ויש גם מלא משרות פתוחות!) #תוכן מקודם