פרק 9: העלייה השקטה של מודלי State-Space
הורדה MP3
תחשבו רגע על התלמיד הכי חכם בכיתה. זה שיכול לצטט לכם מילה במילה כל ספר שהוא אי פעם קרא. מרשים, נכון? עכשיו תדמיינו שבשביל לענות על כל שאלה, לא משנה כמה פשוטה, הוא חייב לקרוא מחדש את כל הספרים בספרייה. כל פעם מחדש. פתאום זה נשמע פחות יעיל. ובכן, זה פחות או יותר מודל טרנספורמר. הארכיטקטורה הזו, שהיא הבסיס ל-ChatGPT ולרוב מודלי השפה הגדולים, היא מדהימה, אבל יש לה עקב אכילס רציני. מנגנון ה"קשב" (Attention) שלה, שמאפשר לה להסתכל על כל מילה בהקשר של כל מילה אחרת, דורש כוח חישוב שעולה בריבוע עם אורך הרצף. וזה לא בעיה של אהלן-אהלן. זה חסם אמיתי שמונע מאיתנו להשתמש במודלים האלה כדי לנתח ספר שלם או את כל הקוד בפרויקט שלנו במכה אחת. אבל בשקט בשקט, מתחת לרדאר, צומחת לה אלטרנטיבה עם פילוסופיה אחרת לגמרי: מודלי ה-State-Space.