1
00:00:00,209 --> 00:00:04,110
בוא נדבר על הסוד הכי יקר והכי אירוני בכל מהפכת ה-AI.

2
00:00:05,159 --> 00:00:08,930
אנחנו כל הזמן שומעים על האלים הדיגיטליים שאנחנו בונים

3
00:00:09,199 --> 00:00:12,470
מודלי שפה ענקיים עם מיליארדי פרמטרים

4
00:00:12,760 --> 00:00:15,439
שרצים על מחשבי-על בעלות אסטרונומית.

5
00:00:15,960 --> 00:00:17,649
מודלים שיכולים לכתוב שירה,

6
00:00:17,760 --> 00:00:18,549
לתכנת,

7
00:00:18,840 --> 00:00:20,469
לעבור את מבחני הלשכה.

8
00:00:20,989 --> 00:00:23,489
אנחנו מדברים עליהם במונחים של אוטומציה,

9
00:00:23,950 --> 00:00:24,510
חשיבה,

10
00:00:24,670 --> 00:00:25,739
טמפרטורה,

11
00:00:26,229 --> 00:00:29,889
אבל הסוד הקטן הוא שמודלי ה-AI האלה, בגדול,

12
00:00:30,229 --> 00:00:31,040
הם תינוקות.

13
00:00:31,360 --> 00:00:34,240
הם מכירים את כל האינטרנט בעל פה, אבל אין להם

14
00:00:34,509 --> 00:00:35,840
טיפת common sense,

15
00:00:35,950 --> 00:00:37,020
אין להם ערכים,

16
00:00:37,430 --> 00:00:39,540
והכישורים החברתיים שלהם

17
00:00:39,830 --> 00:00:42,060
הם של בלטת אקרשטיין.

18
00:00:42,869 --> 00:00:43,619
אז מה עושים?

19
00:00:44,029 --> 00:00:44,970
שוכרים צבא.

20
00:00:45,270 --> 00:00:48,860
צבא של הבייביסיטרים הכי יקרים בהיסטוריה האנושית.

21
00:00:49,479 --> 00:00:53,939
וזו לא עבודה צדדית, זו תעשיית צללים שמגלגלת ים כסף.

22
00:00:54,630 --> 00:00:55,060
היום,

23
00:00:55,189 --> 00:00:57,569
נרים את המסך מעל הצבא הזה.

24
00:00:58,029 --> 00:01:02,389
נכיר את מנהיגיו, אנשיו וננסה להבין מה הם עושים כל היום.

25
00:01:03,360 --> 00:01:04,010
צעד אחורה.

26
00:01:04,440 --> 00:01:08,870
מודל שפה גדול, למשל זה של GPT-3, שנחשב היום צעצוע,

27
00:01:09,319 --> 00:01:10,709
עלה לפי הערכות

28
00:01:10,860 --> 00:01:11,839
4 מיליון דולר.

29
00:01:13,860 --> 00:01:15,110
GPT-4? מאה מיליון דולר.

30
00:01:15,440 --> 00:01:16,910
ו-GPT-5?

31
00:01:17,239 --> 00:01:18,239
קרוב למיליארד.

32
00:01:18,809 --> 00:01:20,790
וזה רק לריצת אימון אחת.

33
00:01:21,319 --> 00:01:21,800
טעית?

34
00:01:21,959 --> 00:01:23,360
שכחת נקודה פסיק?

35
00:01:23,519 --> 00:01:24,790
בא לך לשנות משהו?

36
00:01:25,480 --> 00:01:26,470
אתה מתחיל מההתחלה.

37
00:01:27,199 --> 00:01:31,889
זה טורניר לאמיצים במיוחד, וגם הסיבה שרק קומץ חברות (OpenAI, גוגל,

38
00:01:31,930 --> 00:01:33,760
מטא ו-Anthropic)

39
00:01:34,010 --> 00:01:35,959
משחקות בשולחן הפוקר הזה.

40
00:01:36,720 --> 00:01:39,309
הסעיף הכי ברוטלי בחשבונית הוא מיחשוב.

41
00:01:39,720 --> 00:01:42,430
אנחנו מדברים על עשרות אלפי מאיצים גרפיים

42
00:01:42,760 --> 00:01:44,080
של NVIDIA, כמו ה-H100,

43
00:01:44,180 --> 00:01:44,459
כמו

44
00:01:44,800 --> 00:01:45,389
שרצים

45
00:01:45,639 --> 00:01:48,550
בלי הפסקה חודשים על גבי חודשים.

46
00:01:49,190 --> 00:01:51,940
הכרטיסים האלה מגיעים לרוב בחבילה של 8,

47
00:01:52,099 --> 00:01:53,620
מקוררים עד לעצמות,

48
00:01:54,220 --> 00:01:57,379
בתוך שרת, DGX, גם הוא תוצרת Nvidia

49
00:01:57,819 --> 00:02:01,220
ששוקל 130 קילו ומקושר ב-Infiniband,

50
00:02:01,629 --> 00:02:02,860
גם הוא של ג'נסן.

51
00:02:03,379 --> 00:02:06,019
כל אלו יושבים בחוות שרתים ממוזגות,

52
00:02:06,099 --> 00:02:07,529
צורכים חשמל כמובן,

53
00:02:08,020 --> 00:02:11,330
ומנוהלים ע"י צוותי infra מהטובים בעולם.

54
00:02:12,619 --> 00:02:15,339
98% מהתקציב הולך לשם.

55
00:02:16,100 --> 00:02:18,039
היתר? מושקע בדאטה.

56
00:02:19,000 --> 00:02:23,630
מודל שפה גדול הוא מה שהוא אוכל. והדיאטה שלו מורכבת מכל האינטרנט.

57
00:02:24,330 --> 00:02:26,970
הדאטה הזה נשתה ברובו מהרשת הציבורית -

58
00:02:28,000 --> 00:02:28,559
מרק כאוטי,

59
00:02:28,649 --> 00:02:29,240
מבולגן,

60
00:02:29,330 --> 00:02:31,169
יש יאמרו רעיל ביותר.

61
00:02:32,009 --> 00:02:34,550
הוא גם נרכש בחלקו - ממוציאים לאור,

62
00:02:34,690 --> 00:02:36,520
מגזינים ואתרים פרטיים.

63
00:02:37,460 --> 00:02:38,979
יש עלות להביא את הדאטה,

64
00:02:39,059 --> 00:02:42,169
אבל גם מאות שנות-אדם של מהנדסים שצריכים

65
00:02:42,460 --> 00:02:43,380
לנקות אותו,

66
00:02:43,820 --> 00:02:45,660
(למשל מפרטים מזהים),

67
00:02:46,139 --> 00:02:47,339
לסנן כפילויות,

68
00:02:47,779 --> 00:02:48,460
לדרג,

69
00:02:48,779 --> 00:02:49,580
לנקד.

70
00:02:50,020 --> 00:02:52,240
זה פטה-בייטים של טקסט.

71
00:02:53,100 --> 00:02:57,440
אבל הדאטה הזה, בעיקר ה"חינמי", הוא ערבוביה של חטאים קדמוניים.

72
00:02:57,899 --> 00:02:59,740
שם נמצא כל ה-biases,

73
00:02:59,820 --> 00:03:00,779
כל הפייק ניוז,

74
00:03:00,860 --> 00:03:01,669
כל השנאה,

75
00:03:02,059 --> 00:03:02,610
וגם

76
00:03:02,899 --> 00:03:04,210
הבורות של האנושות.

77
00:03:05,020 --> 00:03:06,820
כאן גם מתחיל הסיפור של היום.

78
00:03:07,509 --> 00:03:09,149
אחרי שלב ה-pre-training,

79
00:03:09,580 --> 00:03:11,100
מודל שפה הוא חיה.

80
00:03:11,580 --> 00:03:13,429
חזקה, אבל פראית ולא מאולפת.

81
00:03:13,619 --> 00:03:14,649
כדי להפוך אותה

82
00:03:14,979 --> 00:03:18,660
לגור צ'או צ'או או מסטיף טיבטי,

83
00:03:19,020 --> 00:03:21,089
מוצר שאשכרה אפשר למכור,

84
00:03:21,500 --> 00:03:23,449
צריך להשלים שני שלבים נוספים.

85
00:03:24,139 --> 00:03:24,619
שלב

86
00:03:25,339 --> 00:03:28,990
ה-SFT או Supervised Fine-Tuning, בו משלמים למומחים,

87
00:03:29,529 --> 00:03:30,240
אנושיים,

88
00:03:30,330 --> 00:03:32,199
לכתוב אלפי דוגמאות של

89
00:03:32,490 --> 00:03:36,529
"איך נראית תשובה מושלמת לשאלה בתחום מומחיותם".

90
00:03:37,660 --> 00:03:38,270
בשלב

91
00:03:39,740 --> 00:03:42,729
ה-RLHF או Reinforcement Learning from Human Feedback,

92
00:03:43,139 --> 00:03:46,770
בו המודל כבר יודע לענות, אבל לא תמיד בצורה שאנחנו רוצים.

93
00:03:47,460 --> 00:03:52,130
כאן נותנים למודל לייצר כמה תשובות שונות לאותה שאלה, ואז משלמים לבני אדם

94
00:03:52,580 --> 00:03:55,440
כדי שידרגו אותן מהטובה לגרועה ביותר.

95
00:03:56,229 --> 00:03:57,229
הפידבק הזה,

96
00:03:57,470 --> 00:04:00,740
הדירוגים האנושיים האלה, משמשים לאמן מודל

97
00:04:01,289 --> 00:04:01,660
reward

98
00:04:02,020 --> 00:04:03,679
שלומד מה בני אדם אוהבים.

99
00:04:04,910 --> 00:04:07,100
שמקודד העדפה אנושית.

100
00:04:07,789 --> 00:04:09,399
זה תהליך אינסופי,

101
00:04:09,470 --> 00:04:11,779
יקר בטירוף, וכרגע -

102
00:04:12,389 --> 00:04:14,139
צוואר בקבוק מרכזי בתעשייה.

103
00:04:15,270 --> 00:04:16,959
לעלות האדירה הזו יש גם שם,

104
00:04:17,070 --> 00:04:18,230
"מס התאמה או alignment"

105
00:04:19,309 --> 00:04:23,549
והוא הבסיס למודל העסקי של חברות כמו Scale AI ו-Mercor.

106
00:04:24,190 --> 00:04:28,859
אלו הפכו כאב ראש יקר מאוד של תעשיית ה-AI למוצר שלהן.

107
00:04:29,829 --> 00:04:30,390
נגיד שוב,

108
00:04:30,549 --> 00:04:32,660
המודלים הגולמיים הם חזקים,

109
00:04:32,950 --> 00:04:36,140
אבל בלתי שמישים מבחינה מסחרית

110
00:04:36,350 --> 00:04:38,109
ואתית בגלל הזיות,

111
00:04:38,399 --> 00:04:40,070
הטיות ורעילות.

112
00:04:40,429 --> 00:04:42,230
הדרך היחידה "ליישר" אותם,

113
00:04:42,309 --> 00:04:43,100
להפוך אותם

114
00:04:43,290 --> 00:04:44,980
לשימושיים ואנושיים

115
00:04:45,230 --> 00:04:46,100
היא באמצעות RLHF.

116
00:04:47,709 --> 00:04:49,500
וזה לא תיקון תוכנה חד-פעמי;

117
00:04:49,589 --> 00:04:51,510
זו אופרציה לוגיסטית מפלצתית,

118
00:04:51,910 --> 00:04:52,549
מתמשכת,

119
00:04:52,670 --> 00:04:53,480
שדורשת גיוס,

120
00:04:53,549 --> 00:04:54,649
ניהול

121
00:04:55,109 --> 00:04:58,989
ובקרת איכות של אלפי פרילנסרים ברחבי העולם.

122
00:05:00,200 --> 00:05:01,399
ובפעם האחרונה שבדקתי,

123
00:05:01,480 --> 00:05:03,959
OpenAI ו-Anthropic הן מעבדות מחקר,

124
00:05:04,040 --> 00:05:05,880
לא סוכנות manpower גלובלית.

125
00:05:06,739 --> 00:05:09,890
הפער הזה יצר קטגוריה חדשה של חברות

126
00:05:10,459 --> 00:05:11,850
"Human-as-a-Service"

127
00:05:12,299 --> 00:05:14,850
שיעשו alignment לכל מה שתבקש.

128
00:05:15,709 --> 00:05:19,500
אחת מהן, Scale AI, היא קלישאת סיליקון וואלי.

129
00:05:19,859 --> 00:05:21,049
אלכסנדר וואנג,

130
00:05:21,140 --> 00:05:24,579
נער פלא בן 19, שבעט בילקוט של MIT,

131
00:05:25,179 --> 00:05:29,140
רצה לבנות מצלמת מקרר כדי לדעת מתי נגמר החלב.

132
00:05:30,000 --> 00:05:31,920
הוא מבין מהר שהבעיה היא לא הקוד,

133
00:05:31,989 --> 00:05:34,380
אלא להשיג מספיק תמונות מייצגות

134
00:05:34,670 --> 00:05:37,339
של קרטוני חלב כדי לאמן את המודל.

135
00:05:38,269 --> 00:05:40,059
האסימון נופל לו לקורנפלקס:

136
00:05:40,230 --> 00:05:42,640
דאטה הוא צוואר הבקבוק של כל מהפכת ה-AI.

137
00:05:43,920 --> 00:05:49,579
הוא בנה את Scale אז, בעיקר לתיוג דאטה לתעשיית הרכב האוטונומי.

138
00:05:50,119 --> 00:05:52,670
תחשבו, אלפי אנשים, שכל היום יושבים

139
00:05:53,040 --> 00:05:55,839
מול מסך ומציירים ריבועים סביב הולכי רגל,

140
00:05:56,390 --> 00:05:57,910
רמזורים וכיכרות.

141
00:05:58,089 --> 00:05:59,970
עבודת נמלים דיגיטלית.

142
00:06:00,239 --> 00:06:03,630
אבל כשהעולם עבר מרכבים אוטונומיים למודלי שפה,

143
00:06:04,119 --> 00:06:06,899
וואנג עשה פיבוט בעצמו.

144
00:06:07,380 --> 00:06:10,540
במקום לספק פיקסלים ברמת מיומנות נמוכה,

145
00:06:11,049 --> 00:06:14,170
הוא עבר לספק קוגניציה ברמת מיומנות גבוהה.

146
00:06:14,570 --> 00:06:16,040
במקום לצייר ריבועים,

147
00:06:16,170 --> 00:06:17,630
העובדים שלו התחילו להעריך

148
00:06:17,929 --> 00:06:21,049
תשובות של LLMs, לבצע RLHF וגם לעשות

149
00:06:21,450 --> 00:06:22,369
red teaming -

150
00:06:22,649 --> 00:06:24,559
לנסות "לשבור" את המודל

151
00:06:24,850 --> 00:06:26,049
כדי למצוא בו חולשות.

152
00:06:27,049 --> 00:06:29,940
Scale הפכה למלכה הבלתי מעורערת של התחום,

153
00:06:30,019 --> 00:06:31,980
מפלצת של 14 מיליארד דולר

154
00:06:32,420 --> 00:06:33,380
שעובדת עם כולם:

155
00:06:33,540 --> 00:06:33,799
גוגל,

156
00:06:33,859 --> 00:06:34,500
מיקרוסופט,

157
00:06:34,649 --> 00:06:35,269
OpenAI,

158
00:06:35,380 --> 00:06:35,779
מטא,

159
00:06:36,380 --> 00:06:38,130
ואפילו משרד ההגנה האמריקאי.

160
00:06:38,799 --> 00:06:41,649
אבל גם סיפור טוב צריך לדעת להרוס.

161
00:06:41,910 --> 00:06:43,820
במאי 2024,

162
00:06:44,299 --> 00:06:47,420
מטא שפכה מיליארד דולר על החברה,

163
00:06:47,829 --> 00:06:50,709
ו-Scale הפסיקה להיות שוויץ הנייטרלית.

164
00:06:51,670 --> 00:06:54,739
הרעיון שיריבה גדולה שלך מחזיקה

165
00:06:54,989 --> 00:06:57,510
נתח בחברה ש"מחנכת" לך את ה-AI

166
00:06:58,869 --> 00:07:02,700
גרם ל-OpenAI וגוגל לקרוע את החוזים מול Scale.

167
00:07:03,100 --> 00:07:03,109
אה,

168
00:07:03,750 --> 00:07:08,190
והדובדבן שבקצפת? אותה Scale עכשיו תובעת בכיר לשעבר

169
00:07:08,649 --> 00:07:12,910
שעבר למתחרה הכי גדולה, Mercor, על גניבת סודות מסחריים.

170
00:07:14,100 --> 00:07:15,459
ו-Mercor היא עוד קלישאה.

171
00:07:16,799 --> 00:07:20,100
שלושה חברים מהוואלי שבעטו בילקוט מהקולג'

172
00:07:20,579 --> 00:07:21,839
והרימו marketplace

173
00:07:22,359 --> 00:07:26,709
ידני וצנוע, שמחבר מפתחים הודים לסטארטאפים אמריקאים.

174
00:07:27,390 --> 00:07:27,679
הם

175
00:07:27,839 --> 00:07:29,089
עשו הכל ידני,

176
00:07:29,239 --> 00:07:30,519
תקשרו בדיסקורד,

177
00:07:30,640 --> 00:07:32,309
מעדכנים קבצי אקסל,

178
00:07:32,959 --> 00:07:37,399
ומבינים שאצלם צוואר הבקבוק הוא סינון המועמדים.

179
00:07:38,100 --> 00:07:40,230
הם פיתחו כלי AI

180
00:07:40,600 --> 00:07:42,890
לראיונות,

181
00:07:43,380 --> 00:07:47,049
ודי מהר קלטו שאפשר לפתור איתו בעיות גיוס

182
00:07:47,220 --> 00:07:48,320
בסקייל ענק.

183
00:07:49,500 --> 00:07:55,600
המודל העסקי של Mercor הוא אנטיתזה לעולם הישן של תיוג. הוא אנטידטה.

184
00:07:55,940 --> 00:07:56,970
הם לא מחפשים

185
00:07:57,100 --> 00:08:00,579
לענות על שאלות קלות. הם בונים marketplace של מומחי-על.

186
00:08:01,089 --> 00:08:03,089
מגייסים סלקטיבית דוקטורים,

187
00:08:03,480 --> 00:08:04,250
עורכי דין,

188
00:08:04,609 --> 00:08:05,239
רופאים,

189
00:08:05,529 --> 00:08:06,609
מומחי מכירות,

190
00:08:06,970 --> 00:08:09,279
וגם זוכי מדליות במתמטיקה.

191
00:08:09,929 --> 00:08:11,390
הם משלמים פרמיה,

192
00:08:11,809 --> 00:08:13,149
השכר הממוצע אצלם הוא

193
00:08:13,450 --> 00:08:16,980
95 דולר לשעה, לעומת 30 ב-Scale AI.

194
00:08:17,529 --> 00:08:19,399
הם מוצאים את המומחים האלה,

195
00:08:19,609 --> 00:08:20,200
ואז

196
00:08:20,420 --> 00:08:22,519
הם נשלחים לאמן את מודלי ה-AI

197
00:08:23,049 --> 00:08:24,200
של הלקוחות שלהם.

198
00:08:25,190 --> 00:08:30,279
מרקור הפכה לאלטרנטיבה הנייטרלית וקפצה ממיליון ל-100 מיליון ARR

199
00:08:30,510 --> 00:08:31,500
בפחות משנה.

200
00:08:32,500 --> 00:08:35,179
שתי חברות ושני זרמים בשוק ה-

201
00:08:35,659 --> 00:08:36,219
human-in-the-loop.

202
00:08:36,500 --> 00:08:39,690
אחת מקדשת "סדנאות יזע דיגיטליות",

203
00:08:40,299 --> 00:08:43,039
המבוססות על עבודה זולה ופשוטה.

204
00:08:43,659 --> 00:08:44,460
אגב זה לא חדש,

205
00:08:44,580 --> 00:08:48,489
Amazon Mechanical Turk ו-Appen המציאו את העולם הזה לפני עשורים,

206
00:08:49,059 --> 00:08:50,059
האפשרות לשלוח

207
00:08:51,099 --> 00:08:52,330
ב-API מיקרו-מטלה

208
00:08:52,659 --> 00:08:53,869
לצבא של עבדים.

209
00:08:54,859 --> 00:09:00,489
הזרם השני, שמובילה "כלכלת מומחים", המבוסס על מיומנות גבוהה

210
00:09:00,799 --> 00:09:02,099
ושכר גבוה.

211
00:09:02,909 --> 00:09:06,619
שני הזרמים משקפים התפתחות טכנולוגית של ה-AI עצמו.

212
00:09:07,340 --> 00:09:08,679
הגל הראשון של AI,

213
00:09:08,739 --> 00:09:10,099
כמו ראייה ממוחשבת,

214
00:09:10,260 --> 00:09:11,969
דרש כמויות אדירות של

215
00:09:12,219 --> 00:09:13,659
עבודת תיוג פשוטה.

216
00:09:14,580 --> 00:09:18,849
הגל השני, של ה-GenAI, דורש סוג אחר לגמרי של קלט אנושי.

217
00:09:19,590 --> 00:09:22,619
כדי ללמד LLM לכתוב חוזה משפטי,

218
00:09:22,780 --> 00:09:24,059
אתה צריך את סול גולדמן.

219
00:09:24,979 --> 00:09:29,059
כדי ללמד אותו לתת עצה רפואית, אתה צריך את ד"ר שניידר קופר.

220
00:09:29,799 --> 00:09:32,119
המשימה היא כבר לא "צייר ריבוע",

221
00:09:32,200 --> 00:09:35,030
אלא "הערך את הקוהרנטיות הלוגית

222
00:09:35,320 --> 00:09:37,710
וההשלכות האתיות של הפסקה הזו".

223
00:09:38,429 --> 00:09:39,020
זה

224
00:09:39,200 --> 00:09:40,840
כשל במודל הישן.

225
00:09:41,559 --> 00:09:45,000
אי אפשר למצוא דוקטור לפיזיקה שיסכים לעבוד ב-5 דולר.

226
00:09:46,250 --> 00:09:46,530
אוקיי,

227
00:09:47,239 --> 00:09:51,869
אז למה לעזאזל ענקיות כמו גוגל או OpenAI לא פשוט בונות צבא פנימי משלהן

228
00:09:52,080 --> 00:09:53,159
של מאמני AI?

229
00:09:53,559 --> 00:09:55,099
למה להוציא את זה החוצה?

230
00:09:55,770 --> 00:09:59,599
מאותה סיבה ש-Uber לא שולחת מתנת חג לנהגים שלה.

231
00:10:00,049 --> 00:10:00,859
הם לא שלה,

232
00:10:01,159 --> 00:10:02,900
והיא לא רוצה להתעסק איתם.

233
00:10:03,849 --> 00:10:06,510
פיתוח AI הוא גם ממש לא לינארי.

234
00:10:06,590 --> 00:10:07,380
חודש אחד

235
00:10:07,710 --> 00:10:11,539
אתה צריך 5,000 שעות פידבק של מומחי Python

236
00:10:11,750 --> 00:10:13,309
כדי לשפר את Codex,

237
00:10:13,909 --> 00:10:17,020
וחודש אחרי 10,000 שעות מסופרי נובלה.

238
00:10:17,830 --> 00:10:18,869
לבנות צוות כזה,

239
00:10:18,950 --> 00:10:20,369
לפטר צוות כזה,

240
00:10:20,789 --> 00:10:22,830
יהיה סיוט HR מתמשך.

241
00:10:23,679 --> 00:10:25,090
יש גם עניין של יעילות.

242
00:10:25,280 --> 00:10:27,049
השכר השעתי למומחים גבוה,

243
00:10:27,200 --> 00:10:28,349
אבל זה עדיין

244
00:10:28,679 --> 00:10:31,190
זול יותר מלהעסיק אותם כעובדים מן המניין,

245
00:10:31,599 --> 00:10:34,270
עם הטבות, תן-ביס ואופציות.

246
00:10:36,320 --> 00:10:38,299
וכמובן פוקוס. OpenAI היא חברת מו"פ.

247
00:10:39,690 --> 00:10:39,700
אז

248
00:10:40,280 --> 00:10:44,849
למה העבודה הזו לא זלגה לפלטפורמות קיימות כמו Fiverr או Upwork?

249
00:10:45,320 --> 00:10:47,469
אגב יכול להיות שכן, אני רק מעריך:

250
00:10:47,919 --> 00:10:51,940
קודם כל הפלטפורמות האלה הן מרוץ לתחתית במחיר.

251
00:10:52,489 --> 00:10:55,549
הן לא בנויות לאיתור וסינון של טאלנטים

252
00:10:55,760 --> 00:10:56,880
מומחים ונדירים.

253
00:10:57,559 --> 00:11:01,669
האיכות של המועמדים בהן לא עקבית והיא גם לא ממש מבוקרת.

254
00:11:02,200 --> 00:11:04,140
כולם יכולים לעלות על אלגנט,

255
00:11:04,530 --> 00:11:07,070
להצטלם ולהציע שם שירותים.

256
00:11:07,960 --> 00:11:13,729
זה הפוך ממרקטפלייסים כמו toptal שעושים pre-vetting לטופ 3%,

257
00:11:13,849 --> 00:11:14,239
אבל

258
00:11:14,690 --> 00:11:16,159
toptal מתמקדת בתוכנה.

259
00:11:16,969 --> 00:11:18,570
סיבה שניה היא היעדר כלים.

260
00:11:18,690 --> 00:11:22,750
Scale ו-Mercor לא מספקות רק אנשים אלא פלטפורמה

261
00:11:23,169 --> 00:11:23,840
שלמה,

262
00:11:24,090 --> 00:11:26,140
עם כלים ייעודיים לתיוג,

263
00:11:26,570 --> 00:11:28,630
הערכה וניהול workflow.

264
00:11:29,400 --> 00:11:32,520
ולבסוף, שירות מנוהל.

265
00:11:32,809 --> 00:11:33,679
החברות האלה מוכרות תוצאה,

266
00:11:33,760 --> 00:11:35,239
לוקחות אחריות על האיכות.

267
00:11:35,760 --> 00:11:39,320
זה ההבדל בין לקנות מצרכים בסופר לבין להזמין קייטרינג.

268
00:11:40,380 --> 00:11:40,659
אגב,

269
00:11:40,669 --> 00:11:43,979
זה לא תמיד היה ככה. כשהיה צריך כוח אדם בזול,

270
00:11:44,380 --> 00:11:47,919
גם כזה שעושה דברים נוראיים כמו בקרת תכנים,

271
00:11:48,340 --> 00:11:50,039
מטא דווקא שכרה אלפים.

272
00:11:50,780 --> 00:11:54,809
האנשים האלה יצאו ממטא עם הפרעות דחק פוסט-טראומטיות,

273
00:11:55,419 --> 00:11:59,419
והרבה מהעבודה הזו עברה דרומית לקו המשווה.

274
00:12:00,179 --> 00:12:02,599
לא באמת צריך מישהו מאירלנד או ארה"ב

275
00:12:02,859 --> 00:12:05,630
לתייג תמונות וסרטונים לא ראויים.

276
00:12:06,549 --> 00:12:07,489
כך הפכה

277
00:12:07,710 --> 00:12:10,840
אפריקה להיות המקום שבו משלמים בקילו

278
00:12:11,130 --> 00:12:12,409
על מילוי משימות,

279
00:12:13,130 --> 00:12:15,830
בעיקר דרך חברות כמו Sema ו-Cloudfactory.

280
00:12:16,960 --> 00:12:20,549
אוקיי אז הבנו למה לא כדאי ל-OpenAI להיות הבייביסיטר.

281
00:12:20,919 --> 00:12:21,989
אבל למה כן?

282
00:12:22,650 --> 00:12:28,349
כי חברות חיצוניות שולטות על חלק קריטי, סופר רגיש במודל שלהן:

283
00:12:28,760 --> 00:12:31,679
הזרקת הערכים, האתיקה והאישיות.

284
00:12:32,280 --> 00:12:32,719
מה טוב?

285
00:12:32,799 --> 00:12:34,119
מה בטוח? מה מועיל?

286
00:12:34,960 --> 00:12:39,150
נתת ל-Mercor לייצר alignment, בעצם נתת לה לשלוט

287
00:12:39,440 --> 00:12:40,929
בנשמה של המודל,

288
00:12:41,559 --> 00:12:44,750
ואתה סומך עליה שתיישר אותו בנאמנות

289
00:12:45,000 --> 00:12:45,640
אליך.

290
00:12:46,200 --> 00:12:49,340
בלי להכניס הטיות משלה, או להדליף חולשות.

291
00:12:50,700 --> 00:12:50,710
אוקיי,

292
00:12:51,260 --> 00:12:52,020
זה ביזנס ענק,

293
00:12:52,140 --> 00:12:55,020
אבל אם כל המאמץ האנושי הזה באמת הופך את ה-AI

294
00:12:55,580 --> 00:12:56,299
לטוב יותר?

295
00:12:56,940 --> 00:12:57,260
כן,

296
00:12:57,900 --> 00:12:58,419
לגמרי.

297
00:12:58,940 --> 00:13:02,000
כבר ב-2022 השוותה OpenAI

298
00:13:02,260 --> 00:13:04,969
בין מודל מפלצת של 175

299
00:13:05,340 --> 00:13:06,789
מיליארד פרמטרים

300
00:13:07,099 --> 00:13:09,489
(גולמי, כזה שלא עבר RLHF)

301
00:13:09,820 --> 00:13:13,130
למודל פצפון של מיליארד עם פידבק אנושי.

302
00:13:13,719 --> 00:13:18,229
בני תמותה העדיפו באופן גורף תשובות של המודל הקטן והמכונך

303
00:13:19,200 --> 00:13:21,070
וגם ה-hallucinations שלו היו קטנים בחצי.

304
00:13:22,460 --> 00:13:25,340
זה אולי נשמע קצת מגביל, אבל הכרחי.

305
00:13:25,469 --> 00:13:26,900
אם תשאל מודל גולמי

306
00:13:27,190 --> 00:13:29,190
"איך פורצים לבית של השכן?",

307
00:13:29,750 --> 00:13:34,150
הוא עלול לתת לך מדריך מפורט, כי הוא ראה טקסטים כאלה באינטרנט.

308
00:13:34,750 --> 00:13:37,260
מודל שעבר RLHF יגיד לך:

309
00:13:37,669 --> 00:13:39,229
"אני לא יכול לעזור לך עם זה,

310
00:13:39,630 --> 00:13:43,260
פריצה לבתים היא לא חוקית ומסוכנת".

311
00:13:44,530 --> 00:13:46,049
השינוי הזה לא קרה מעצמו;

312
00:13:46,130 --> 00:13:49,130
אלפי בני אדם לימדו אותו את הגבול הזה.

313
00:13:50,369 --> 00:13:52,450
חברת Anthropic לקחה את זה קדימה.

314
00:13:52,530 --> 00:13:54,570
הם יצרו "חוקה" - סט של עקרונות,

315
00:13:54,729 --> 00:13:55,359
חלקם

316
00:13:55,809 --> 00:13:58,219
לקוח מהצהרת זכויות האדם, מסתבר,

317
00:13:58,809 --> 00:13:59,409
והם משתמשים ב-AI

318
00:14:00,010 --> 00:14:02,760
כדי לבדוק אם התשובות עומדות בחוקה הזו.

319
00:14:03,539 --> 00:14:09,200
זה ניסיון להפוך את תהליך ה-alignment ליותר סקיילבילי, ו-90% יותר זול,

320
00:14:09,830 --> 00:14:11,859
אבל עדיין נדרשים בני אדם

321
00:14:12,190 --> 00:14:14,179
שיגדירו את העקרונות האלו,

322
00:14:15,320 --> 00:14:16,219
וגם יעדכנו אותם.

323
00:14:17,520 --> 00:14:17,760
אגב,

324
00:14:17,820 --> 00:14:18,630
יש פה מלכוד.

325
00:14:19,059 --> 00:14:22,320
RLHF לא רק הופך מודלים לטובים יותר;

326
00:14:22,780 --> 00:14:26,169
הוא הופך אותם לטובים יותר בלהישמע משכנעים,

327
00:14:26,659 --> 00:14:27,780
גם כשהם טועים.

328
00:14:28,739 --> 00:14:31,159
אחרי RLHF, בני אדם מצליחים

329
00:14:31,570 --> 00:14:33,059
פחות לזהות מתי ה-AI

330
00:14:33,500 --> 00:14:34,219
משקר להם.

331
00:14:34,900 --> 00:14:37,890
המודל לומד את הסגנון הרטורי של תשובה

332
00:14:38,179 --> 00:14:39,609
בטוחה ונכונה,

333
00:14:40,059 --> 00:14:43,799
ונהנה להחיל את הסגנון הזה גם על מידע שגוי.

334
00:14:45,400 --> 00:14:46,349
לאן כל זה הולך?

335
00:14:46,460 --> 00:14:48,299
אם אתה זוכה פרס נובל,

336
00:14:48,580 --> 00:14:49,669
העבודה שלך

337
00:14:49,820 --> 00:14:50,539
מובטחת. בצחוק.

338
00:14:51,219 --> 00:14:52,599
מומחי-על בתחומם,

339
00:14:53,219 --> 00:14:54,780
עורכי הדין הכי טובים,

340
00:14:54,979 --> 00:14:56,260
הקרדיולוגים הכי טובים,

341
00:14:56,419 --> 00:14:58,289
המדענים הכי מבריקים

342
00:14:58,739 --> 00:15:00,010
יפנו אולי

343
00:15:00,190 --> 00:15:03,539
למקצוע חדש, סופר מתגמל של מאמני AI.

344
00:15:04,099 --> 00:15:06,729
הם יעבירו ידע סופר נישתי

345
00:15:07,190 --> 00:15:07,659
לקוד,

346
00:15:07,820 --> 00:15:10,409
למשהו שאני ואתה יכולים לצרוך.

347
00:15:11,440 --> 00:15:15,679
שוק הדאטה יתפצל. במקום Scale AI גדולה וגנרית,

348
00:15:16,400 --> 00:15:18,469
אולי נראה חברות בוטיק מתמחות.

349
00:15:19,320 --> 00:15:23,039
"אנחנו מאמנים AI רק על קומיקסים של זבנג מהמאה ה-

350
00:15:23,039 --> 00:15:27,489
19", או "אנחנו הכי טובים בפציעות ספורט לקפיצה משולשת".

351
00:15:28,190 --> 00:15:31,330
ככל שהיישומים של AI יהפכו ליותר ספציפיים,

352
00:15:31,840 --> 00:15:33,150
כך גם המאמנים.

353
00:15:34,210 --> 00:15:38,900
ואולי, כמו שסיליקון וואלי אוהבת, תוכנה תאכל שוב את כולם.

354
00:15:39,890 --> 00:15:41,640
ה-human-in-the-loop ייעלם ומעבדות ה-AI

355
00:15:42,239 --> 00:15:42,789
יגרמו ל-AI

356
00:15:43,559 --> 00:15:44,469
לאמן את עצמו.

357
00:15:45,359 --> 00:15:49,950
זה נקרא RLAIF או Reinforcement Learning from AI Feedback

358
00:15:50,479 --> 00:15:52,830
והרעיון הוא להשתמש במודל הכי טוב שלך,

359
00:15:53,520 --> 00:15:54,859
נניח GPT-5,

360
00:15:55,520 --> 00:15:57,690
כדי לתת פידבק למודל הבא שלך.

361
00:15:59,250 --> 00:15:59,729
עשרות,

362
00:15:59,890 --> 00:16:01,390
אולי מאות מיליונים

363
00:16:01,650 --> 00:16:04,130
עובדים בכלכלת הרפאים הזו.

364
00:16:04,690 --> 00:16:06,760
הם מתחבאים מאחורי APIs,

365
00:16:07,130 --> 00:16:08,650
מספר קבלני משנה,

366
00:16:09,250 --> 00:16:10,169
הרבה NDAs

367
00:16:10,609 --> 00:16:11,780
וניצול.

368
00:16:12,580 --> 00:16:16,530
8 מתוך 10 משימות בממוצע נדחות ע"י המזמין.

369
00:16:17,010 --> 00:16:17,859
תתלונן?

370
00:16:18,130 --> 00:16:20,809
וחשבון הפרילנסר שלך יימחק.

371
00:16:21,690 --> 00:16:25,280
החברות צריכות שהעובדים האלה יישארו בלתי נראים

372
00:16:25,890 --> 00:16:27,789
כדי לתמוך באשליה של אוטומציה.

373
00:16:28,679 --> 00:16:30,130
אם התלות בהם תמשיך,

374
00:16:30,239 --> 00:16:31,270
ובמיוחד אם

375
00:16:31,599 --> 00:16:33,580
RLAIF לא יקרה,

376
00:16:34,159 --> 00:16:37,869
כל חברות ה-AI יצטרכו להודות בהתערבות אנושית,

377
00:16:38,359 --> 00:16:42,190
וגם לספוג ירידה של 30-40% בשווי.

378
00:16:43,760 --> 00:16:47,049
עד אז, כל תשובה מ-ChatGPT עשויה

379
00:16:47,400 --> 00:16:50,390
לכלול טראומה של בקר תוכן מקניה,

380
00:16:50,919 --> 00:16:52,960
ניצול של עובד בוונצואלה,

381
00:16:53,440 --> 00:16:55,840
שכר שנגנב ממישהו בפיליפינים.

382
00:16:56,400 --> 00:16:58,989
אז ברור שהטכנולוגיה משוגעת

383
00:16:59,320 --> 00:17:00,580
ועובדת ממש טוב,

384
00:17:00,799 --> 00:17:01,429
אבל...

385
00:17:01,919 --> 00:17:02,909
באיזה מחיר?

386
00:17:04,229 --> 00:17:07,670
עד הפעם הבאה, תהיו טובים ותמשיכו להיות סקרנים.

387
00:17:08,430 --> 00:17:08,939
יאללה ביי.