חוקרים טוענים שהידע האנושי מגביל את הבינה המלאכותית
לפי חוקרים מ-DeepMind, אם מודלים של הבינה המלאכותית יתחילו להתאמן על חוויות מהעולם, דברים מופלאים יקרו

תמונה: dreamstime
בזמן שמבחני ביצועים לבינה מלאכותית ממשיכים להשתכלל ואפילו מבחן טיורינג כבר "הובס" במובנים מסוימים, עדיין נראה כי המודלים אינם מפגינים הבנה אמיתית או חשיבה עצמאית, אלא פשוט מזהים דפוסים בשפה ומחכים סגנון אנושי. אבל בעוד העולם מתמקד במבחני ביצועים עבור ה-LLM's שלו, חוקרי DeepMind של גוגל, טוענים כי הבעיה האמיתית היא באופי האימון של המודלים, שמגביל את היכולות.
משנים את המיקוד
במאמר שפרסמו לאחרונה, שצפוי להיכלל בספר חדש בהוצאת MIT Press, מציעים החוקרים דייוויד סילבר וריצ'רד סאטון לאפשר למודלים אינטראקציה עם העולם, חוויה שממנה יוכלו לגבש מטרות חדשות על סמך אותות מהסביבה. "יכולות חדשות ומדהימות ייווצרו ברגע שנרתום את הפוטנציאל המלא של למידה חווייתית", הם כותבים במאמר Welcome to the Era of Experience ("ברוכים הבאים לעידן החוויה").
כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime
הכוונה היא להפסיק להסתמך רק על מידע שנוצר בעבר על ידי בני אדם כמו טקסטים, דוגמאות קוד, מאמרים או שיחות ולהתחיל לאפשר למודלים של בינה מלאכותית ליצור לעצמם חוויות, ללמוד מתוכן ולהשתפר באופן עצמאי. במילים אחרות: במקום לשנן את מה שאנחנו בני האדם כבר יודעים תנו למודל לחקור, להתנסות, לטעות, לנסות שוב ולגלות דברים בעצמו.
לטענתם, במקום חקירה עצמאית של העולם, מודלי השפה הגדולים נשענים על "שיפוט מוקדם" של המשתמשים מה שמוביל, לדבריהם, לתקרת זכוכית בביצועים: "הסוכן אינו יכול לגלות אסטרטגיות טובות יותר שלא הוערכו כראוי על ידי המדריך האנושי". לשם כך מציעים החוקרים גישה חדשה בשם streams, שמרחיבה את עקרונות למידת החיזוק ומבקשת להכניס חוויות ואינטראקציות מתמשכות כחלק מהאימון של מודלים עתידיים.
סילבר וסאטון מבססים את גישתם על AlphaGo ו-AlphaZero, מערכות מבית DeepMind שהתבססו על למידת חיזוק (Reinforcement Learning) והצליחו להביס בני אדם במשחקים כמו גו ושחמט. לדבריהם, הופעתם של כלים כמו ChatGPT סימנה מעבר למודלים גנרטיביים שמפסיקים ללמוד מהעולם ומתמקדים רק במענה מיידי לבקשות של המשתמש. הם טוענים שהמעבר הזה גבה מחיר משמעותי: "במעבר הזה משהו הלך לאיבוד, היכולת של הסוכן לגלות ידע בעצמו".