1
00:00:00,090 --> 00:00:04,679
בינה מלאכותית, שכותבת חמשירים, שמציירת חתולים על סקייטבורד או מנפישה

2
00:00:04,679 --> 00:00:09,069
קיפודים בהחלט מציתה את הדמיון. אבל אם נהיה כנים,

3
00:00:09,079 --> 00:00:15,189
רוב העולם העסקי לא רץ על שירה ותמונות של רקסי. הוא רץ על אקסלים, על טבלאות,

4
00:00:15,600 --> 00:00:16,270
גרפים

5
00:00:16,680 --> 00:00:21,149
והררי שורות, שמייצגים פעילות עסקית, עם תובנות שצריך להכווין.

6
00:00:21,590 --> 00:00:27,559
בשנה האחרונה קורה משהו מאוד מעניין, שאף אחד, כמעט, לא מדבר עליו מחוץ לאקדמיה.

7
00:00:28,069 --> 00:00:34,220
מה אם אותם מודלים שלמדו לכתוב כמו שייקספיר, ילמדו לקרוא גם spreadsheets? מה אם

8
00:00:34,220 --> 00:00:39,470
ה-AI שמבין את הדקדוק של השפה האמהרית, יבין גם את ה"דקדוק" של מספרים?

9
00:00:40,209 --> 00:00:43,729
כדי להבין את מה שקורה היום עם LLM, צריך להבין איך הוא עובד.

10
00:00:43,810 --> 00:00:46,520
מודל שפה גדול מתאמן על טקסט.

11
00:00:46,689 --> 00:00:51,610
המון טקסט. הוא מפרק כל מילה בו לטוקנים, סוג של הברות,

12
00:00:51,610 --> 00:00:56,770
ובאמצעות רשת ניורונים, מצליח למקם כל הברה במרחב רב-מימדי ענק.

13
00:00:57,169 --> 00:00:58,409
כשאתה שואל שאלה,

14
00:00:58,729 --> 00:01:02,970
המודל מטייל בין טוקנים שנראים לו רלוונטים ומרכיב

15
00:01:02,970 --> 00:01:07,489
לך משפט, ופסקה, שעושים, סטטיסטית, מספיק שכל.

16
00:01:08,279 --> 00:01:12,519
LLM גר ברחוב Deep Learning, בבניין של מפורסמים -

17
00:01:12,919 --> 00:01:14,300
חיים שם Gemini,

18
00:01:14,400 --> 00:01:15,750
קלוד ו-GPT.

19
00:01:15,959 --> 00:01:16,809
הם למדו לכתוב,

20
00:01:16,839 --> 00:01:17,319
לתרגם,

21
00:01:17,360 --> 00:01:19,949
לנהל שיחה, וליצור תמונות.

22
00:01:20,199 --> 00:01:21,669
ברחוב Machine Learning,

23
00:01:21,919 --> 00:01:28,550
בבניין עם תריסי פלסטיק שבורים ומזגן מטפטף, גרים האלגוריתמים הקלאסיים.

24
00:01:28,559 --> 00:01:29,190
Random

25
00:01:29,260 --> 00:01:29,760
Forest,

26
00:01:30,080 --> 00:01:30,959
LightGBM

27
00:01:31,480 --> 00:01:31,809
ו-XGBoost.

28
00:01:32,239 --> 00:01:36,440
השמות האלה אולי לא אומרים לכם כלום, אבל הם אלו שמפעילים את העולם.

29
00:01:36,720 --> 00:01:38,919
הם מחליטים אם תקבלו משכנתא,

30
00:01:39,199 --> 00:01:41,239
מזהים אם מישהו גונב לכם את האשראי,

31
00:01:41,519 --> 00:01:44,519
חוזים כמה מלאי צריך להזמין לסופר.

32
00:01:44,800 --> 00:01:46,569
הם עושים את העבודה המלוכלכת,

33
00:01:46,599 --> 00:01:50,040
השקטה, והחשובה - של מספרים וטבלאות.

34
00:01:50,589 --> 00:01:54,019
אלגוריתם קלאסי נתפר, לפי מידות.

35
00:01:54,029 --> 00:02:00,620
הוא לוקח את הקובץ אקסל שלכם - נאמר טבלה של מאות אלפי שורות של לקוחות, עם עמודות כמו גיל,

36
00:02:00,629 --> 00:02:01,160
הכנסה,

37
00:02:01,430 --> 00:02:06,300
מספר רכישות, אזור מגורים, והוא מתחיל לבנות, מאות עצי החלטה שונים.

38
00:02:06,309 --> 00:02:08,649
כל עץ שואל שאלה:

39
00:02:10,024 --> 00:02:15,315
אם הגיל מעל 45, הכניסה האחרונה למערכת הייתה אתמול והיו 2 פניות לשירות הלקוחות השבוע,

40
00:02:15,565 --> 00:02:17,964
מה הסיכוי שהלקוח ינטוש?

41
00:02:18,195 --> 00:02:22,565
הוא בונה את העצים האלה שוב ושוב ושוב, בכל פעם

42
00:02:22,565 --> 00:02:26,764
מדייק קצת יותר, עד שהוא מגיע לתוצאה מדויקת להפליא.

43
00:02:27,389 --> 00:02:27,970
וזה עובד.

44
00:02:28,089 --> 00:02:28,880
זה עובד מעולה.

45
00:02:28,889 --> 00:02:32,210
XGBoost הוא סוס עבודה שמניע את התעשיה.

46
00:02:32,330 --> 00:02:35,570
הבעיה היחידה - שהוא מתחיל מ-0 כל פעם.

47
00:02:35,729 --> 00:02:41,449
אתה נותן לו טבלה חדשה עם עמודות חדשות? הוא כמו תינוק שטוחן בייבי-ביס.

48
00:02:41,490 --> 00:02:42,770
אין לו שום ידע קודם,

49
00:02:42,850 --> 00:02:44,050
שום הבנה של העולם.

50
00:02:44,449 --> 00:02:48,610
הוא לא יודע מה זה עמודה עם כותרת של לחץ דם, ומה זה משכנתא.

51
00:02:48,929 --> 00:02:52,970
הוא רואה רק מספרים ומנסה למצוא תבניות סטטיסטיות.

52
00:02:54,839 --> 00:02:55,960
וה-LLM? בדיוק להיפך.

53
00:02:56,000 --> 00:02:57,990
כשמודל שפה נשאל,

54
00:02:58,000 --> 00:02:59,240
הוא לא צריך ללמוד כלום.

55
00:02:59,279 --> 00:03:00,119
הוא כבר למד.

56
00:03:00,679 --> 00:03:04,880
הוא מביא איתו IQ עצום, ומשתמש בו כדי לנבא את התשובה.

57
00:03:05,789 --> 00:03:06,339
ועכשיו,

58
00:03:06,350 --> 00:03:11,809
שני הבניינים האלה מדברים על מיזוג, ולא מצליחים להחליט בין תמ"א לפינוי-בינוי.

59
00:03:11,830 --> 00:03:15,429
המסלול הראשון לגשר בין העולמות הוא TabLLM,

60
00:03:15,880 --> 00:03:20,190
פתרון די נאיבי שמשתמש ב-serialization (או המרה לטקסט).

61
00:03:20,440 --> 00:03:24,839
לוקחים כל שורה בטבלה ופשוט.. כותבים אותה כמשפט באנגלית.

62
00:03:24,919 --> 00:03:25,199
במקום

63
00:03:26,309 --> 00:03:27,589
שה-AI יראה age=45,

64
00:03:28,119 --> 00:03:29,000
city=ny,

65
00:03:29,039 --> 00:03:30,059
purchases=3

66
00:03:30,600 --> 00:03:32,669
הוא רואה: הלקוח הזה בן 45,

67
00:03:33,600 --> 00:03:35,669
גר בניו-יורק ועשה 3 הזמנות.

68
00:03:36,009 --> 00:03:36,910
האם ינטוש?

69
00:03:37,720 --> 00:03:38,119
ואת זה

70
00:03:38,479 --> 00:03:38,800
ה-LLM מבין.

71
00:03:38,839 --> 00:03:39,970
הוא יודע מה זה בן 45.

72
00:03:40,520 --> 00:03:41,539
הוא מכיר את ניו-יורק.

73
00:03:41,759 --> 00:03:44,039
הוא קרא אלפי מאמרים על שימור לקוחות,

74
00:03:44,320 --> 00:03:47,759
על מסחר אלקטרוני ודפוסי קניה, והידע הזה,

75
00:03:48,119 --> 00:03:52,039
ידע של-XGBoost לעולם לא יהיה - פועל בשבילו.

76
00:03:52,850 --> 00:03:53,160
אגב

77
00:03:53,210 --> 00:03:54,410
זה לא חייב להיות משפט ארוך.

78
00:03:54,570 --> 00:03:56,449
אפשר לשים כל שדה בשורה משלו,

79
00:03:56,770 --> 00:03:59,250
לייצג אותו כאובייקט JSON סטנדרטי,

80
00:03:59,850 --> 00:04:01,009
או (אם אתם ממש גיקים)

81
00:04:01,050 --> 00:04:02,529
לפרמל אותו ב-LaTeX,

82
00:04:02,889 --> 00:04:06,649
פורמט שמודלי שפה נתקלים בו בעיקר במאמרים מדעיים.

83
00:04:07,460 --> 00:04:10,619
זה עובד גם ב-time series (או חיזוי מבוסס זמן).

84
00:04:11,029 --> 00:04:14,630
אם יש לכם סדרת טמפרטורות: 15,19,

85
00:04:14,800 --> 00:04:14,910
25,28

86
00:04:15,750 --> 00:04:18,260
אפשר להמיר אותם למשהו כמו קר,

87
00:04:18,269 --> 00:04:18,619
נוח,

88
00:04:18,630 --> 00:04:19,029
חם,

89
00:04:19,309 --> 00:04:20,010
חם מאוד.

90
00:04:20,390 --> 00:04:25,549
מודלים חדשים כמו TimesFM של גוגל או Chronous של אמזון יודעים לאנקד מספרים

91
00:04:26,049 --> 00:04:29,100
גם מבלי לחבר אותם למילים סובייקטיביות.

92
00:04:29,179 --> 00:04:36,339
הם מתייחסים לגרפים, כמו זה של הבורסה או של תעבורת האתר שלכם, כאילו הם עוד שפה, עם דקדוק,

93
00:04:36,380 --> 00:04:37,019
עם כללים,

94
00:04:37,299 --> 00:04:39,089
עם דפוסים צפויים.

95
00:04:39,100 --> 00:04:43,619
והמודל, שלמד מאוד שפות, פשוט לומד עוד אחת.

96
00:04:48,690 --> 00:04:50,660
המסלול השני, TabPFN או (Prior-data Fitted Network) מנסה גישה הפוכה לגמרי.

97
00:04:50,670 --> 00:04:52,500
בניית מודל שעוצב,

98
00:04:52,619 --> 00:04:57,459
קונפג ואומן מראשיתו אך ורק עבור מבנים טבלאיים.

99
00:04:59,100 --> 00:05:03,700
TabPFN אומן להבין את הסטטיסטיקה והיחסים המבניים בתוך

100
00:05:03,700 --> 00:05:07,450
טבלאות. ולא, הם לא טבלאות שהושאלו מהעולם האמיתי.

101
00:05:07,779 --> 00:05:09,779
אין שם ציוני מיצ"ב או מידע

102
00:05:11,649 --> 00:05:11,940
מהל"מס.

103
00:05:11,980 --> 00:05:17,630
יש שם 130 מיליון מערכי נתונים, סינתטיים לחלוטין, שנוצרו בקפידה ע"י מודלים.

104
00:05:18,070 --> 00:05:20,609
טבלאות עם כל סוגי דפוס אפשרי -

105
00:05:21,070 --> 00:05:21,630
ליניאריים,

106
00:05:21,709 --> 00:05:22,510
אקספוננציאליים,

107
00:05:22,630 --> 00:05:23,029
מחזוריים,

108
00:05:23,109 --> 00:05:23,690
אקראיים,

109
00:05:23,910 --> 00:05:24,390
עם רעש,

110
00:05:24,470 --> 00:05:24,950
בלי רעש,

111
00:05:24,989 --> 00:05:25,510
עם חריגות,

112
00:05:25,549 --> 00:05:26,149
בלי דרמות.

113
00:05:26,589 --> 00:05:35,070
הכל. TabPFN בנוי לזהות את הפיזיקה של הנתונים, ואת האופן שבו סטטיסטיקה פועלת במרחב.

114
00:05:36,290 --> 00:05:38,160
בוא נעצור שניה להעריך את האקדמיה,

115
00:05:38,250 --> 00:05:40,640
אבל גם להבין את קפיצת המדרגה.

116
00:05:40,730 --> 00:05:43,130
זוכרים שדיברנו על מודל קלאסיים?

117
00:05:43,489 --> 00:05:48,369
על תקופת האימון, ואז תקופת הכוונון או הקינון שנדרשות

118
00:05:48,369 --> 00:05:51,929
כדי להעביר את המודל למצב שבו הוא מוכן לחיזוי?

119
00:05:52,720 --> 00:05:54,359
במודלי TabPFN

120
00:05:54,440 --> 00:05:55,399
כל תהליך האימון,

121
00:05:55,519 --> 00:05:56,880
הבדיקה והחיזוי קורה

122
00:05:58,519 --> 00:05:59,239
ב-Forward Pass אחד בודד,

123
00:05:59,519 --> 00:06:01,700
מה שנקרא in-context learning.

124
00:06:02,239 --> 00:06:04,100
אפס כוונון של hyperparameters,

125
00:06:04,579 --> 00:06:07,160
אפס עדכון משקלים (או backpropagation),

126
00:06:07,660 --> 00:06:09,459
אפס הנדסת פיצ'רים מוקדמת.

127
00:06:09,679 --> 00:06:15,160
פשוט תדחוף איזה דאטה שיש לך, יחד עם הבעיה, ותקבל תחזית.

128
00:06:16,529 --> 00:06:16,829
אוקיי,

129
00:06:16,859 --> 00:06:20,019
אז למה כל העולם וחמתו לא משתמש בזה?

130
00:06:20,619 --> 00:06:21,480
סקייל.

131
00:06:21,540 --> 00:06:25,579
TabPFN סובל ממגבלת Context Window חמורה ביותר.

132
00:06:25,660 --> 00:06:29,959
הוא תומך באופן רשמי בכמות פיצית של 10,000 שורות.

133
00:06:30,339 --> 00:06:32,339
קצת מעל והוא מתחיל להיחנק.

134
00:06:32,779 --> 00:06:36,010
זהו מחיר הארכיטקטורה הכבד של מנגנון ה-Self-Attention,

135
00:06:36,769 --> 00:06:40,609
שמסתבך בצורה ריבועית ביחס למספר השורות.

136
00:06:41,010 --> 00:06:45,690
זה יוצר גם בעיית שיהוי. אם היינו רגילים ש-XGBoost, שהתאמן על מיליוני

137
00:06:45,690 --> 00:06:52,609
רשומות, מחזיר לנו תחזית ב-10 מילישניות, ל-TabPFN צריך לפעמים לחכות שניות.

138
00:06:52,929 --> 00:06:54,769
זה לפחות 2 סדרי גודל.

139
00:06:55,329 --> 00:06:55,529
אוקיי

140
00:06:55,570 --> 00:06:57,269
אז מתי כן להשתמש?

141
00:06:57,750 --> 00:06:59,750
כשיש לכם בעיית cold-start.

142
00:06:59,790 --> 00:07:04,149
למשל מוצר חדש עם 100 לקוחות, או לקוח עם מאה שורות בטבלה.

143
00:07:04,589 --> 00:07:08,869
אם תנסו לאמן XGBoost על 100 שורות הוא יצחק לכם בפנים. מודלים

144
00:07:08,869 --> 00:07:14,540
קלאסיים פשוט צריכים הרבה data. אבל TabPFN? הוא מביא את הידע מבחוץ.

145
00:07:14,549 --> 00:07:19,190
הוא כבר ראה מיליארד טבלאות כאלה. מאה שורות זה המון בשבילו.

146
00:07:20,269 --> 00:07:24,029
מתי עוד להשתמש? כשהמשמעות הסמנטית חשובה.

147
00:07:24,190 --> 00:07:24,670
אמרנו,

148
00:07:24,869 --> 00:07:27,709
למזלו, XGBoost לא יודע מה זה משכנתא.

149
00:07:28,070 --> 00:07:30,950
אם העמודות שלכם מכילות מידע סמנטי -

150
00:07:31,589 --> 00:07:32,149
"לחץ דם",

151
00:07:32,230 --> 00:07:34,890
"דירוג אשראי" או "שביעות רצון לקוח",

152
00:07:35,109 --> 00:07:36,790
ל-LLM יש יתרון מובנה.

153
00:07:36,829 --> 00:07:41,910
הוא יודע שלחץ דם גבוה זה רע, ודירוג אשראי גבוה זה טוב.

154
00:07:42,309 --> 00:07:43,950
הידע הזה מגיע בחינם.

155
00:07:45,369 --> 00:07:47,290
כשצריך למלא חורים.

156
00:07:47,339 --> 00:07:51,140
כל מי שעבד עם דאטה אמיתי יודע שתמיד חסרים ערכים.

157
00:07:51,220 --> 00:07:52,579
תמיד יש תאים ריקים.

158
00:07:53,019 --> 00:07:55,640
עד היום היינו ממלאים אותם בממוצע, או חציון.

159
00:07:56,420 --> 00:07:58,970
ה-LLM יכול להסתכל על ההקשר של כל השורה,

160
00:07:59,220 --> 00:08:01,059
וכמו שהוא עובד טוב עם שגיאות כתיב,

161
00:08:01,339 --> 00:08:07,260
הוא יודע לתת ניחוש מושכל תמיד. וכשצריכים תשובה עכשיו.

162
00:08:08,369 --> 00:08:11,649
לא אחרי שבוע של feature engineering ו-hyperparameter tuning.

163
00:08:11,869 --> 00:08:14,470
זורקים את הדאטה ל-TabPFN, מקבלים תשובה תוך

164
00:08:14,470 --> 00:08:18,589
שניות, מעולה ל-POC, מספיק למוצרים בתחילת הדרך.

165
00:08:18,989 --> 00:08:23,920
אז בואו לא נזרוק את XGBoost לפח. הקלאסיקה לרוב מנצחת. סקייל?

166
00:08:25,519 --> 00:08:26,070
10 מיליון שורות,

167
00:08:26,359 --> 00:08:27,200
100 מיליון, מיליארד?

168
00:08:27,230 --> 00:08:29,470
XGBoost יטחן את זה ביעילות,

169
00:08:29,869 --> 00:08:31,470
בזול ובלי להזיע.

170
00:08:31,549 --> 00:08:33,210
התוצאה של אימון כזה,

171
00:08:33,510 --> 00:08:35,359
וזה לא משנה כמה הוא ארוך,

172
00:08:35,710 --> 00:08:42,179
הוא משקלות, והשיהוי שבתשאול משקלות הוא קבוע ובלתי מורגש.

173
00:08:42,190 --> 00:08:46,590
לתשאל עם LLM יכול לעלות סנטים לכל תחזית.

174
00:08:47,549 --> 00:08:50,909
אבל יש כמה רעיונות מהעולם החדש ששווה לשים עליהם עין.

175
00:08:51,190 --> 00:08:52,549
הראשון, fine-tuning.

176
00:08:52,909 --> 00:08:58,219
לקחת מודל שפה קיים ופשוט ללמד אותו קצת על העולם הספציפי שלכם.

177
00:08:58,229 --> 00:09:01,179
במקום לאמן מודל על האינטרנט כולו,

178
00:09:01,390 --> 00:09:03,789
אפשר לתת לו אלפי דוגמאות מהדומיין שלכם:

179
00:09:04,270 --> 00:09:05,270
טבלאות של לקוחות,

180
00:09:05,349 --> 00:09:06,109
נתוני עסקאות,

181
00:09:06,190 --> 00:09:10,619
היסטוריית רכישות. המודל עדיין מביא איתו את כל הידע הכללי,

182
00:09:10,989 --> 00:09:15,630
אבל עכשיו הוא גם לומד את הדפוסים המקומיים של העסק שלכם.

183
00:09:16,270 --> 00:09:18,020
הרעיון השני - דאטה סינתטי.

184
00:09:18,030 --> 00:09:21,140
פיתרון אלגנטי למגוון בעיות של דאטה חסר,

185
00:09:21,429 --> 00:09:28,119
דאטה רגיש או דאטה פרטי. מודלי שפה יכולים לייצר לכם אלפי רשומות סינתטיות שמתנהגות

186
00:09:29,284 --> 00:09:33,244
סטטיסטית בדיוק כמו רשומות אמיתיות, אבל הן בדויות לחלוטין.

187
00:09:33,645 --> 00:09:35,114
תחשבו על חברות ביטוח,

188
00:09:35,125 --> 00:09:39,284
בנקים וקופות חולים בישראל, שיושבות על הררי דאטה רגיש

189
00:09:39,284 --> 00:09:43,244
שאיש לא יכול לגעת בו, ופתאום - יש כלי שמאפשר

190
00:09:43,244 --> 00:09:47,965
להם "לשחרר" את הערך בלי לפגוע בפרטיות, ובלי לעבור

191
00:09:47,965 --> 00:09:51,744
על החוק כמובן, שלא תגמרו כמו "פרנק" מפרק 33.

192
00:09:53,169 --> 00:09:53,919
והרעיון השלישי -

193
00:09:53,969 --> 00:09:54,809
Explainability.

194
00:09:54,849 --> 00:09:59,090
כי מה שחשוב לאנשים שאינם מדעני נתונים הוא להבין.

195
00:09:59,570 --> 00:10:05,200
Explainability זה כשה-AI מסביר את עצמו. במקום 78% chrun

196
00:10:06,559 --> 00:10:11,099
אפשר לכתוב: "הלקוח הזה בסיכון גבוה לנטישה כי הוא לא ביצע רכישה ב-90 יום האחרונים,

197
00:10:11,530 --> 00:10:16,320
הגיש 3 תלונות בפקס ודירוג שביעות הרצון שלו ירד מ-8 ל-4.

198
00:10:17,320 --> 00:10:19,900
זה לא יכולת רק של LLM.

199
00:10:19,960 --> 00:10:23,059
יש ספריות SHAP ו-LIME שמתחברות ל-XGBoost,

200
00:10:23,440 --> 00:10:26,760
אבל LLM נותן להם נופח אנושי יותר.

201
00:10:27,080 --> 00:10:29,239
פתאום הפלט הוא לא רק מספר -

202
00:10:29,320 --> 00:10:32,799
הוא סיפור, ואנשי עסקים אוהבים סיפורים.

203
00:10:34,190 --> 00:10:34,510
אז לא,

204
00:10:34,669 --> 00:10:39,229
העולם העסקי לא באמת צריך עוד תמונה של רקסי על סקייטבורד.

205
00:10:39,349 --> 00:10:43,190
אבל אם מודלי שפה יצליחו להבין טוב יותר טבלאות -

206
00:10:43,469 --> 00:10:45,789
הם יוכלו לעזור לחזות מכירות,

207
00:10:46,109 --> 00:10:49,690
לגלות הונאות, ולהכווין החלטות עסקיות.

208
00:10:50,549 --> 00:10:52,710
וזה כבר הרבה יותר מעניין.

209
00:10:53,270 --> 00:10:53,679
תודה.

210
00:10:54,070 --> 00:11:00,659
תודה רבה לצה"ל ולכוחות הביטחון שנלחמים בשבילנו על השקט המוחלט.

211
00:11:00,669 --> 00:11:03,030
עד הפעם הבאה, תהיו טובים, ותמשיכו להיות סקרנים.

212
00:11:03,309 --> 00:11:03,669
יאללה ביי.