אל תבנו עליהם: סוכני ה-AI עדיין נכשלים במשימות בסיסיות
אם ציפיתם שהאייג'נטים יעשו בשבילכם את העבודה ואתם תוכלו לנוח, זה כנראה לא יקרה בקרוב. אבל היי, לפחות עדיין יצטרכו אתכם במשרד

תמונה: ChatGPT
שנת 2025 עד כה מצטיירת כשנת הפריצה של "סוכני ה-AI". כמעט כל ענקיות הטכנולוגיה רוצות לשלב אותם בסביבת העבודה ולייעל את זמן העבודה של העובד האנושי, אבל נראה שזה עדיין מוקדם מדי. חברת ה-IT והייעוץ הטכנולוגי גרטנר חושפת מחקר חדש וטוענת: כמעט מחצית מהפרויקטים הולכים להתבטל תוך שנתיים. אז אם ציפיתם להישען אחורה בכיסא ולתת ל-AI לעשות עבורכם את העבודה הקשה, כדאי שתחשבו שוב.
בטעם סוכן AI
על פי המחקר, 40% מהפרויקטים שמבוצעים על ידי סוכני AI יתבטלו עד שנת 2027 בעיקר נוכח עליית המחירים הצפויה בתחום, ערך עסקי לא ידוע והיעדר מנגנוני בקרה וניהול סיכונים. נכון, אמנם זה אומר ש-60% מהפרויקטים עדיין ימשיכו לרוץ, אבל צריך להביא בחשבון גם את סיכויי ההצלחה של כל פרויקט – 30%-35% בלבד לפי מדדים של חוקרים מאוניברסיטת קרנגי מלון ו-Salesforce, שבדקו את מידת הביצוע של משימות מורכבות על ידי סוכני AI.
וזה ממש לא הכל, בגרטנר טוענים שרוב החברות שעוסקות בתחום ה-Agentic AI בכלל לא מצליחות לספק פתרונות שעונים על ההגדרה האמיתית של התחום. זאת אומרת, סוכני ה-AI שלנו אולי יכולים לקרוא ולסכם לנו את המיילים לפי דרישה, אבל אנחנו עדיין רחוקים שנות אור מסוכן AI כמו ג'רוויס, המשרת האישי של איירון מן בסרטי מארוול. הטענה שחוזרת אצל גרטנר היא שחברות רבות עושות למעשה "Agent Washing", או ריברנדינג של עוזרים קוליים, צ'טבוטים ותהליכי אוטומציה ומלבישות להם את הטייטל "סוכני AI" כשהם בכלל "בטעם סוכני AI" וללא יכולות מתאימות. על פי המספרים שהציגה החברה, מתוך אלפי חברות שנבדקו בתחום רק 130 הציגו מוצר שבאמת עומד בקריטריונים.
The Office גרסת ה-AI
החוקרים של אוניברסיטת קרנגי מלון פיתחו סימולציה בשם TheAgentCompany, המדמה משרד תוכנה קטן כדי לבדוק כיצד מודלים מבצעים משימות כמו גלישה באינטרנט, כתיבת קוד, הפעלת תוכנות ותקשורת עם קולגות. החוקרים הריצו מודלים שונים של בינה מלאכותית על שתי סביבות עבודה שמאפשרות להעריך כיצד סוכני AI מתמודדים עם משימות משרדיות והתוצאות לא ממש מעודדות.
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
המובילים היו Gemini-2.5-Pro עם 30.3% הצלחה ו-Claude-3.7-Sonnet עם 26.3%, כשגם Claude-3.5-Sonnet הצליח להשלים כ־24% מהמשימות. מנגד, מודלים כמו GPT-4o (8.6%), Llama-3.3-70b (6.9%) ו-Amazon-Nova-Pro (1.7%) הראו ביצועים נמוכים במיוחד, וחלקם בקושי הצליחו לעבור את רף ה־5%.
אך גם כאשר מודל הצליח להשלים חלק מהמשימה, התגלו לא מעט כשלים. למשל: התעלמות מהוראות לשלוח הודעה, חוסר יכולת להתמודד עם פופאפים בדפדפן, ואפילו הטעיה – במקרה אחד סוכן שינה שם של משתמש כדי לעקוף מגבלה.
החוקרים הסבירו כי המוטיבציה לפרויקט נולדה בעקבות מאמר של OpenAI ובית הספר וורטון, שבחן אילו מקצועות ניתן תאורטית להעביר לסוכני AI באופן מלא. איך הם בדקו את זה? פשוט שאלו את ChatGPT אם אפשר לבצע אוטומציה על המשרה, לא בדיוק הדרך הכי אובייקטיבית כשזוכרים שה-AI עונה בדרך כלל תשובות שירצו אותנו.
לאחר מכן הם העבירו את השאלה האלה גם לנשאלים אנושיים, ואם הייתה הסכמה בין הצדדים המשרה הוגדרה כמיותרת עבור בני אדם. גראהם ניוביג, פרופסור חבר מ־CMU ואחד ממחברי המאמר, סיפר בריאיון ל־The Register כי הגישה הזו נראתה לו מפוקפקת, ולכן החליט לפתח מבחן אמיתי שיבדוק אם סוכני AI יכולים להתמודד עם משימות משרדיות אמיתיות.
לדבריו, בגרסה הראשונה של המבחן סוכן תוכנה הצליח להשלים לחלוטין כ־24% מהמשימות. חצי שנה לאחר מכן, עם גרסה חדשה של סוכן AI, הוא כבר להגיע להשלים 34% מהמשימות. "זה עלה מרבע לשליש", אמר, "אבל מה שמאכזב אותי הוא שהמעבדות המובילות בכלל לא אימצו את המבחן. אולי הוא קשה מדי וגורם להן להיראות רע". ניוביג, שמועסק גם בסטארטאפ לפיתוח סוכני קוד, מאמין שגם פתרונות חלקיים יכולים לעזור, לפחות כשמדובר בהשלמות קוד.
גם Salesforce מאשרת את המספרים
במחקר נוסף, הפעם של חברת Salesforce, החוקרים פיתחו סביבת ניסוי חדשה שכוללת 19 משימות בתחום המכירות, שירות ותמחור ללקוחות פרטיים ועסקיים. הממצאים העלו כי סוכני שיחה הצליחו בכ־58% מהמקרים במשימות פשוטות (פנייה אחת ותשובה), אך ירדו ל־35% בלבד כשמדובר בשיחה מתמשכת. בתחום ביצוע תהליכים (Workflow Execution) דווקא נרשם שיפור, עם הצלחה של יותר מ־83% למודלים חזקים. עם זאת, כל המודלים הראו חוסר מודעות כמעט מוחלט לנושאים של סודיות, לא משהו שניתן להתעלם ממנו בשימושים ארגוניים.
אנושרי ורמה, דירקטורית בכירה בגרטנר סיכמה את הממצאים: "מרבית הפרויקטים בתחום סוכני ה-AI לא מציעים ערך מוסף או החזר השקעה משמעותי. המודלים פשוט לא בשלים מספיק כדי להשיג מטרות עסקיות מורכבות לאורך זמן". למרות הממצאים, ולמרות ההשערה כי 40% מהפרויקטים בכלל יבוטלו, בגרטנר משערים כי ב-2028 כ-15% מההחלטות שיתקבלו בעבודה יהיו של סוכני AI. אז אולי זה ייקח כמה שנים יותר מהמצופה, אבל בסוף שבקרוב תוכלו להחזיק סוכן AI משלכם במשרד, וגם אם לא, לפחות תתנחמו בכך שהוא לא יגנוב לכם את העבודה.