חברת AI21 חושפת את מודל ה-AI הקטן והמהיר בעולם שרץ ישירות על מכשירי הקצה

Jamba Reasoning 3B תוכנן לפעול על לפטופים וטלפונים סטנדרטיים ומסוגל לפעול בקצב הגבוה פי 2-4 ממודלים מתחרים

מערכת ITtime

8.10.25

תמונה: באדיבות החברה

חברת ה-AI הישראלית AI21 Labs משיקה היום (ד') מודל הסקה חדש הנחשב לזעיר ולמהיר ביותר בעולם. המודל, שקיבל את השם Jamba Reasoning 3B, מושק בקוד פתוח, ולטענת החברה הוא הראשון מסוגו בעולם שמסוגל לעבוד עם קונטקסט של מעל 250K טוקנים במכשירי קצה סטנדרטיים, כולל מחשבים ניידים, אייפונים וטלפוני פיקסל.

בחברה מציינים כי המודל מצטיין בהסקת מסקנות ופתרון בעיות מורכבות במתמטיקה ובכתיבה וניתוח של קוד וכן שהוא מסוגל לפעול בקצב הגבוה פי 2-4 ממודלים מתחרים במכשירי קצה. לטענתם, Jamba Reasoning 3B "תוכנן תוך מחשבה על מפתחי AI למכשירי קצה ומערכות ייעודיות, הזקוקות לעיבוד יעיל על המכשיר עצמו, ורץ היטב על מחשבים וטלפונים ללא תלות בענן".

כל עדכוני ה-IT, תשתית וטכנולוגיה בערוץ הטלגרם של ITtime

בחברה סיפרו כי בריצה על מקבוק פרו סטנדרטי, Jamba Reasoning 3B הפגין ביצועים במגוון תחומים: עיבוד של 35 טוקנים לשנייה עם קונטקסט של 32K, לעומת 8-15 טוקנים לשניה במודלים זעירים מתחרים. בנוסף, הוא שבר את שיא אורך הקונטקסט הקיים בשוק, שעמד עד כה על 128K טוקנים (Llama 3.2-3B, Phi-4 Mini ו-DeepSeek) והצליח לעבד מעל 250K טוקנים בקצב מרשים של מעל 17 טוקנים לשנייה, בעוד שעל מכשירי קצה דוגמת המקבוק, מודלים מתחרים קורסים ב-100K טוקנים.

המודל מותאם במיוחד למשימות הדורשות קונטקסט ארוך, כמו קריאה לפונקציות וכלים חיצוניים (Function Calling), פעולה במסגרת חוקים ומגבלות קשיחים (Policy Grounded Generation), מענה לשאלות על בסיס מסמכים מרובים, ניתוב בין מודלים וכלים, או ניתוח קוד.

כמו כן, בחברה מדגישים כי היכולת של המודל לפעול ביעילות על מכשירי קצה מאפשרת בנייה של ארכיטקטורות היברידיות שעשויה לחסוך עד פי 30 בעלויות תשתיות ה-AI. המודל זמין בקוד פתוח תחת רישיון Apache 2.0 דרך Hugging Face ,Kaggle ,llama.cpp ,Ollama ו-LM Studio.

תמונה: באדיבות החברה

"הפוטנציאל של מודלים זעירים הוא עצום – Jamba Reasoning 3B הוא השלב הראשון של מימוש היכולות האמיתיות שלהם", מסר אורי גושן, מנכ"ל שותף ומייסד שותף ב-AI21, " יכולות Reasoning במכשירי קצה, היכולת להתאים את המודל למשימות ספציפיות, והפוטנציאל בארכיטקטורת ענן-קצה היברידית – כולם מקדמים אותנו ל-AI יעיל, זריז יותר, שמסוגל לתת מענה לצרכים אמיתיים ומגוונים".