1
00:00:01,370 --> 00:00:03,769
תחשבו רגע על התלמיד הכי חכם בכיתה,

2
00:00:03,890 --> 00:00:07,679
זה שיכול לצטט לכם מילה במילה כל ספר שהוא אי פעם קרא.

3
00:00:08,470 --> 00:00:08,920
מרשים,

4
00:00:08,949 --> 00:00:09,260
נכון?

5
00:00:09,850 --> 00:00:12,310
עכשיו תדמיינו שבשביל לענות על כל שאלה,

6
00:00:12,430 --> 00:00:13,739
לא משנה כמה פשוטה,

7
00:00:14,189 --> 00:00:17,950
הוא חייב לקרוא מחדש את כל הספרים בספרייה,

8
00:00:18,549 --> 00:00:19,969
כל פעם מחדש,

9
00:00:20,590 --> 00:00:22,540
פתאום זה נשמע פחות יעיל.

10
00:00:23,110 --> 00:00:25,559
ובכן, זה פחות או יותר מודל טרנספורמר.

11
00:00:26,180 --> 00:00:30,610
הארכיטקטורה הזו, שהיא הבסיס ל-ChatGPT ולרוב מודלי השפה הגדולים,

12
00:00:30,860 --> 00:00:32,240
היא מדהימה, אבל יש לה

13
00:00:32,540 --> 00:00:33,830
עקב אכילס רציני.

14
00:00:34,340 --> 00:00:36,630
מנגנון ה"קשב" (Attention) שלה,

15
00:00:36,860 --> 00:00:40,569
שמאפשר לה להסתכל על כל מילה בהקשר של כל מילה אחרת,

16
00:00:41,060 --> 00:00:42,529
דורש כוח חישוב

17
00:00:42,900 --> 00:00:45,540
שעולה בריבוע עם אורך הרצף.

18
00:00:46,110 --> 00:00:46,610
וזה

19
00:00:46,779 --> 00:00:48,060
לא בעיה של אהלן-אהלן,

20
00:00:48,099 --> 00:00:49,450
זה חסם אמיתי

21
00:00:49,779 --> 00:00:53,169
שמונע מאיתנו להשתמש במודלים האלה כדי

22
00:00:53,580 --> 00:00:55,130
לנתח ספר שלם

23
00:00:55,419 --> 00:00:58,009
או את כל הקוד בפרויקט שלנו במכה אחת.

24
00:00:58,939 --> 00:01:01,880
אבל בשקט בשקט, מתחת לרדאר,

25
00:01:02,360 --> 00:01:06,220
צומחת לה אלטרנטיבה עם פילוסופיה אחרת לגמרי:

26
00:01:06,750 --> 00:01:07,260
מודלי

27
00:01:07,910 --> 00:01:08,419
ה-State-Space.

28
00:01:09,940 --> 00:01:13,169
אם הטרנספורמר הוא סורק ספרייה אובססיבי,

29
00:01:13,300 --> 00:01:14,250
אז SSM,

30
00:01:14,620 --> 00:01:17,580
ובמיוחד המימוש הפופולרי שלו Mamba,

31
00:01:18,059 --> 00:01:19,500
הוא כמו ספרן יעיל.

32
00:01:20,139 --> 00:01:23,059
הספרן לא קורא מחדש את כל הספרייה לכל שאלה.

33
00:01:23,660 --> 00:01:27,959
במקום זה, הוא מתחזק תקציר מתגלגל של המידע החשוב ביותר.

34
00:01:28,599 --> 00:01:30,290
כשמידע חדש נכנס,

35
00:01:30,910 --> 00:01:33,069
הספרן פשוט מעדכן את התקציר שלו.

36
00:01:33,800 --> 00:01:37,309
זה הרבה יותר מהיר ודורש הרבה פחות כוח חישוב וזיכרון.

37
00:01:38,050 --> 00:01:39,889
אבל ליעילות הזו יש מחיר.

38
00:01:40,699 --> 00:01:44,120
התקציר של הספרן הוא תוצאה של דחיסת חומר,

39
00:01:44,699 --> 00:01:48,620
ובתהליך הדחיסה, חלק מהפרטים הקטנים עלולים ללכת לאיבוד.

40
00:01:49,339 --> 00:01:51,769
וזה בדיוק ההבדל המהותי בין שתי הגישות:

41
00:01:52,220 --> 00:01:53,379
מחקרים מוכיחים

42
00:01:53,830 --> 00:01:57,529
שטרנספורמרים טובים משמעותית במשימות שדורשות

43
00:01:57,699 --> 00:02:00,599
שליפה מדויקת ומילה במילה

44
00:02:00,900 --> 00:02:02,220
של מידע מההקשר.

45
00:02:02,660 --> 00:02:04,529
הם רואים הכל, כל הזמן.

46
00:02:05,160 --> 00:02:05,839
לעומתם,

47
00:02:06,000 --> 00:02:09,229
SSMs מצטיינים בסיכום וביעילות,

48
00:02:09,500 --> 00:02:13,199
ומעבדים רצפים בזמן לינארי ועם זיכרון קבוע,

49
00:02:13,919 --> 00:02:16,990
מה שהופך אותם לאידיאליים להקשרים ארוכים במיוחד.

50
00:02:18,009 --> 00:02:22,309
הרוטב הסודי של Mamba, שהופך אותו ליותר מסתם SSM בסיסי,

51
00:02:22,729 --> 00:02:24,050
הוא מנגנון "סלקטיבי".

52
00:02:24,729 --> 00:02:28,440
המודל יודע להחליט איזה מידע חדש חשוב מספיק

53
00:02:28,729 --> 00:02:31,399
כדי להכניס אותו לתקציר המתגלגל שלו,

54
00:02:31,759 --> 00:02:33,380
ועל איזה מידע אפשר לוותר,

55
00:02:33,970 --> 00:02:36,490
והכל בהתבסס על ההקשר הנוכחי.

56
00:02:36,889 --> 00:02:38,289
הוא לא סתם דוחס מידע,

57
00:02:38,570 --> 00:02:40,479
הוא דוחס מידע בצורה חכמה.

58
00:02:41,759 --> 00:02:42,929
אבל למה לקחת צד?

59
00:02:43,039 --> 00:02:45,149
הטרנד החם הוא מודלים היברידיים,

60
00:02:45,479 --> 00:02:48,240
שמנסים לשלב את יתרונות משתי הגישות.

61
00:02:49,039 --> 00:02:49,509
הראשון,

62
00:02:49,800 --> 00:02:53,509
Jamba של חברת AI21 Labs הישראלית

63
00:02:53,880 --> 00:02:57,779
משלב שכבות של טרנספורמר ושכבות של Mamba לסירוגין.

64
00:02:58,479 --> 00:02:59,539
בעוד במבה,

65
00:03:00,039 --> 00:03:00,990
לא התינוק,

66
00:03:01,119 --> 00:03:02,000
של IBM,

67
00:03:02,520 --> 00:03:04,130
מבוסס על רעיון דומה,

68
00:03:04,520 --> 00:03:09,470
ומבטיח לרוץ במהירות כפולה מטרנספורמר באותו גודל, עם רמת דיוק

69
00:03:09,880 --> 00:03:10,479
די דומה.

70
00:03:11,570 --> 00:03:16,089
מודלים עתידיים יתוכננו עם פשרות וישלבו בתוכן הרבה שכבות.

71
00:03:16,570 --> 00:03:17,610
במקום לשאול

72
00:03:17,970 --> 00:03:20,399
"האם זה טרנספורמר או SSM?",

73
00:03:21,009 --> 00:03:24,770
נשאל "מה היחס בין שכבות ה-Attention לשכבות ה-State?".

74
00:03:25,809 --> 00:03:29,880
מודל לניתוח חוזים משפטיים, שדורש דיוק מירבי,

75
00:03:30,050 --> 00:03:32,410
יכיל כנראה יותר שכבות Attention.

76
00:03:32,929 --> 00:03:35,919
מודל לעיבוד אודיו בזמן אמת, שצריך להיות יעיל,

77
00:03:36,369 --> 00:03:38,600
יהיה מבוסס בעיקר על SSM.

78
00:03:39,779 --> 00:03:44,369
אוקיי, אז יש לנו מודל Mamba, Jamba ובמבה, איך נתאים אותו למשימה סופר ספציפית?

79
00:03:44,660 --> 00:03:46,339
איך נעשה לו Fine Tuning?

80
00:03:47,300 --> 00:03:47,779
בעיה.

81
00:03:48,139 --> 00:03:52,210
שיטות ההתאמה שפותחו עבור Transformers פשוט לא עובדות כאן.

82
00:03:53,009 --> 00:03:53,779
ולמה?

83
00:03:53,899 --> 00:03:55,600
אם נחזור לספרן שלנו,

84
00:03:55,690 --> 00:03:58,380
Fine Tune למודל זה כמו להדביק פתקית

85
00:03:58,770 --> 00:04:00,389
על הדף הראשון של כל ספר.

86
00:04:01,020 --> 00:04:03,729
עבור ה-Transformer, שסורק את כל הספרים כל פעם

87
00:04:03,729 --> 00:04:06,520
מחדש, הוא יראה את הפתקית הזו שוב ושוב, והשפעתה

88
00:04:06,850 --> 00:04:07,990
תהיה חזקה.

89
00:04:08,839 --> 00:04:09,800
אבל עבור ה-SSM,

90
00:04:10,360 --> 00:04:11,669
הפתקית תשולב

91
00:04:12,039 --> 00:04:15,080
בתקציר המלא שלה, וההשפעה תתפוגג.

92
00:04:15,699 --> 00:04:16,160
האות

93
00:04:16,950 --> 00:04:18,040
פשוט חלש מדי.

94
00:04:19,089 --> 00:04:24,149
הפתרון הוא משפחה חדשה של שיטות התאמה שנבנו במיוחד עבור

95
00:04:24,529 --> 00:04:25,239
SSMs.

96
00:04:25,290 --> 00:04:29,399
אחת מהם, שנקראת State offset tuning או SOT,

97
00:04:29,850 --> 00:04:32,880
מוסיפה וקטור קטן לחלקים בתקציר,

98
00:04:33,290 --> 00:04:37,089
וזה הרבה יותר יעיל מלשנות את מיליארדי המשקלות של המודל.

99
00:04:37,609 --> 00:04:43,380
ואכן, SOT משיג תשעים ושש עד תשעים ותשע אחוז מהביצועים

100
00:04:43,769 --> 00:04:44,880
של כיוונון מלא,

101
00:04:45,549 --> 00:04:49,369
תוך שינוי של פחות מאחוז בודד מהפרמטרים.

102
00:04:50,929 --> 00:04:56,130
העולם של "Attention is All You Need" מפנה את הדרך ל-"Compromise is All You Need".

103
00:04:56,619 --> 00:04:58,480
אי אפשר לבחור את המודל הכי טוב,

104
00:04:58,529 --> 00:05:00,119
צריך להחליט על הפשרות

105
00:05:00,369 --> 00:05:01,980
שהבעיה שלך מאפשרת.

106
00:05:02,660 --> 00:05:06,079
אם ה-Transformer לימד את המכונות להבין שפה,

107
00:05:06,850 --> 00:05:08,679
המודלים החדשים מלמדים אותן

108
00:05:08,809 --> 00:05:09,709
להיות יעילות.

109
00:05:10,649 --> 00:05:14,040
המהפכה הבאה היא לא רק על מה המודלים יכולים לעשות,

110
00:05:14,570 --> 00:05:16,239
אלא על כמה חכם,

111
00:05:16,690 --> 00:05:17,470
וזול,

112
00:05:18,049 --> 00:05:19,279
הם יכולים לעשות את זה.

113
00:05:20,029 --> 00:05:21,059
עד הפעם הבאה,

114
00:05:21,429 --> 00:05:23,989
תהיו טובים, ותמשיכו להיות סקרנים.

115
00:05:24,470 --> 00:05:24,980
יאללה ביי.