1
00:00:00,490 --> 00:00:05,530
תעשיית הטק עוברת משימוש ניסיוני במודלי שפה להטמעה עמוקה בפרודקשן.

2
00:00:05,889 --> 00:00:08,380
ומה שנראה לפני שלוש שנים כמו הוצאה שולית -

3
00:00:08,989 --> 00:00:10,310
כמה סנטים לשאילתה -

4
00:00:10,569 --> 00:00:14,130
הפך לשורת הוצאה אמיתית בדו"ח הרווח והפסד.

5
00:00:14,869 --> 00:00:16,690
זה כבר לא צעצוע של חדשנות.

6
00:00:16,729 --> 00:00:22,170
זו תשתית, שמפעילה סייעני קוד וסוכנים אוטונומיים מסביב לשעון.

7
00:00:22,690 --> 00:00:26,079
בפרק הזה (שהוא המשך של פרק קלוד קוד למתקדמים),

8
00:00:26,389 --> 00:00:29,430
אנסה לנתח את כלכלת הטוקנים החדשה,

9
00:00:29,750 --> 00:00:32,520
איפה הכסף נשרף ואיך אפשר לשלוט בו.

10
00:00:32,830 --> 00:00:38,180
כי בעולם שבו "הסקה" (Inference) הוא המשאב המרכזי -

11
00:00:38,229 --> 00:00:40,430
מי שלא מנהל אותו, יישרף.

12
00:00:40,990 --> 00:00:44,500
בוא ניקח את בייס לדוגמה לבנות אפליקציה בשיחה.

13
00:00:44,810 --> 00:00:46,330
זה מרגיש כמו קסם,

14
00:00:46,729 --> 00:00:51,770
אבל מאחורי כל שינוי קטן במסך מסתתרות עשרות קריאות API,

15
00:00:52,090 --> 00:00:53,849
שריקות קוד ובדיקות.

16
00:00:54,250 --> 00:00:55,650
אז זה לא קסם,

17
00:00:55,729 --> 00:00:58,169
זה מכונה לסדילה של טורקי.

18
00:00:59,259 --> 00:01:05,330
בפרק הקודם דיברנו על הצורך בצמצום ה-Context Window מבלי לפגוע באיכות התוצאה,

19
00:01:06,339 --> 00:01:11,370
אבל ככל שמודל השימוש שלנו מתקדם, צריכת הטוקנים מתפוצצת.

20
00:01:11,819 --> 00:01:13,919
צ'אט בסיסי למשל ב-2023 היה סביב 500 טוקנים.

21
00:01:13,930 --> 00:01:13,989
שאלת שאלה,

22
00:01:14,379 --> 00:01:15,669
קיבלת פיסקה או שתיים.

23
00:01:18,949 --> 00:01:24,989
ב-2026, אותה שיחה עולה כבר פי 5 בגלל שימוש ב-RAG,

24
00:01:25,389 --> 00:01:27,349
קונטקסט ייחודי וזיכרון.

25
00:01:28,269 --> 00:01:35,339
גם סייעני קוד, שב-2023 סרקו קובץ וחצי, מנתחים היום בקלות קודבייס שלם.

26
00:01:36,059 --> 00:01:40,940
אבל הבזבזן הגדול, בפער, סוכן קוד, שמבצע לופים, של תכנון,

27
00:01:41,029 --> 00:01:45,910
פעולה ואימות בקצב שנושק למיליון טוקנים בשעה.

28
00:01:46,580 --> 00:01:51,279
אם מתכנתים היו רואים כמה שרת מתאמץ בשביל להזיז כפתור -

29
00:01:52,099 --> 00:01:54,400
הם היו פשוט מזיזים אותו לבד.

30
00:01:55,709 --> 00:02:00,250
הדרך הראשונה לחסוך כסף היא קאשינג, או - לא לחשוב פעמיים על אותו דבר.

31
00:02:00,349 --> 00:02:03,029
חלק גדול מה-Promptים חוזרים על עצמם.

32
00:02:03,230 --> 00:02:09,229
במודלים מודרנים אפשר לאחסן את הייצוג המתמטי של הטוקנים שכבר עובדו על ידי המודל.

33
00:02:09,669 --> 00:02:14,350
כאשר נשלחת בקשה חדשה שמתחילה באותו רצף טוקנים, המודל

34
00:02:14,350 --> 00:02:18,100
יכול "להמשיך" מהנקודה שבה הפסיק במקום להתחיל מאפס.

35
00:02:18,389 --> 00:02:21,509
אבל החיסכון הזה נוגע רק ל-Input. על Output,

36
00:02:21,509 --> 00:02:25,229
שהוא לרוב יקר פי 5, נמשיך לשלם מהטוקן הראשון.

37
00:02:26,110 --> 00:02:27,949
עם קאשינג אתה מאבד רנדומיזציה -

38
00:02:28,029 --> 00:02:31,580
התשובות הופכות פחות מגוונות, וזה טוב או רע,

39
00:02:31,589 --> 00:02:32,869
תלוי מה אתה מנסה להשיג.

40
00:02:33,190 --> 00:02:35,789
אבל בעיה אינהרנטית יותר היא אובדן הדינמיות.

41
00:02:36,190 --> 00:02:38,660
לאחר האינטראקציה השנייה או השלישית,

42
00:02:38,669 --> 00:02:43,389
המשתמש מכניס נתונים כל כך ייחודיים, שהופכים את המטמון ללא רלוונטי.

43
00:02:43,990 --> 00:02:48,919
קאש עובד טוב כשיש חזרתיות, אבל משתמשים הם הכל חוץ מחזרתיים.

44
00:02:49,169 --> 00:02:54,080
אם תצליח לשמר חזרתיות, ההנחה תופעל אוטומטית ותגיע לפעמים

45
00:02:54,080 --> 00:02:59,330
ל-90%. אמרנו, זה מוזיל רק את ה-Input ורק במקרים ספציפיים.

46
00:02:59,330 --> 00:03:02,809
אתה יותר ממוזמן לפתח את פתרון הקאשינג בעצמך, עם redis

47
00:03:02,809 --> 00:03:06,250
או memcache, אבל מישהו צריך לנהל את המטמון הזה.

48
00:03:07,089 --> 00:03:09,800
הדרך השניה היא Batching - סבלנות ככלי כלכלי.

49
00:03:10,449 --> 00:03:13,250
אם תעבד (בע') את הבקשות שלך באצוות

50
00:03:13,529 --> 00:03:14,000
(בא'),

51
00:03:14,410 --> 00:03:18,449
תזכה להנחה משמעותית עבור משימות שאינן דורשת תגובה מיידית.

52
00:03:19,139 --> 00:03:24,490
OpenAI למשל תחתוך מחיר בחצי אם אתה בסדר שהתוצאה תעובד בחלון של

53
00:03:24,490 --> 00:03:28,210
24 שעות. עבור פרוייקטים של ניתוח תוכנה, או סריקה של לוגים,

54
00:03:28,490 --> 00:03:31,039
זו יכולה להיות אסטרטגיית חיסכון לא רעה.

55
00:03:31,570 --> 00:03:32,440
אם זה לא צ'אט,

56
00:03:32,649 --> 00:03:35,169
אין סיבה לשלם מחיר של צ'אט.

57
00:03:35,630 --> 00:03:40,490
ומהמתנה, לניתוב. לא כל שאילתה דורשת IQ של המודל הכי יקר בשוק.

58
00:03:40,889 --> 00:03:44,889
ניתוב מודלים (או routing) היא דרך שבו אתה, או

59
00:03:44,889 --> 00:03:48,570
שכבת תוכנה רזה, מחליטה לאיזה מודל לשלוח את הבקשה.

60
00:03:48,970 --> 00:03:53,089
החלטה שמתבססת על מורכבות השאלה או על זהות המשתמש.

61
00:03:53,770 --> 00:03:54,570
מורכבות זה ברור,

62
00:03:54,610 --> 00:03:57,130
בוא נשתמש במודלים קטנים למשימות פשוטות של

63
00:03:57,130 --> 00:04:00,410
סיווג, ונעשה הסלמה כאשר נדרשת לוגיקה עמוקה.

64
00:04:01,050 --> 00:04:02,089
אבל מה קשור המשתמש?

65
00:04:02,649 --> 00:04:04,809
חברות רבות עומדות בפני דילמה:

66
00:04:04,929 --> 00:04:05,779
לקוח משלם

67
00:04:06,050 --> 00:04:06,610
(Premium)

68
00:04:06,889 --> 00:04:08,929
ברור שיקבל את המודל החזק ביותר,

69
00:04:09,330 --> 00:04:10,729
אבל מה עם לקוח חינמי?

70
00:04:11,050 --> 00:04:12,800
אם אני רוצה להפוך אותו למשלם -

71
00:04:12,970 --> 00:04:18,140
האם כדאי לתת לו לטעום מהמודל היקר כדי לשכנע אותו בערך המוצר? או

72
00:04:18,140 --> 00:04:23,890
שאולי מדובר בתפרן שלא ישלם אף פעם, ושיטעם, אם בכלל, ממודל פלאש או מיני.

73
00:04:24,779 --> 00:04:30,220
הבעיה בראוטינג היא להבין - איזה מודל מספיק טוב, וכמה שווה החיסכון.

74
00:04:30,619 --> 00:04:34,940
בנצ'מרקים ציבוריים (מפרק 36) הם כלי שימושי להשוואה כללית,

75
00:04:34,980 --> 00:04:36,980
אך הם סובלים מהטיה -

76
00:04:37,660 --> 00:04:42,339
בעיקר כי נתוני בדיקה דולפים עם הזמן לשלב האימון של המודלים.

77
00:04:42,890 --> 00:04:43,950
הפתרון המקצועי -

78
00:04:43,989 --> 00:04:48,070
בניית מערכת evaluations (או eval אם אתם רוצים להישמע מגניב),

79
00:04:48,429 --> 00:04:52,510
שתעמת מאות שאילתות אמיתיות של משתמשי קצה, עם

80
00:04:52,510 --> 00:04:55,829
תשובות הזהב שנקבעו על ידי מומחים אנושיים.

81
00:04:56,429 --> 00:05:00,709
כשעוברים ממודל GPT-4 ל-GPT-5-mini אפשר להריץ את ה-Evals

82
00:05:01,190 --> 00:05:02,429
ולהשוות את הציון.

83
00:05:02,790 --> 00:05:06,989
אם מודל זול שומר על 95% מהאיכות, בשאלות שהמשתמשים

84
00:05:06,989 --> 00:05:11,709
שלך שואלים כל יום, מעבר הוא החלטה עסקית מתבקשת.

85
00:05:12,320 --> 00:05:12,679
זיכרו -

86
00:05:12,799 --> 00:05:14,160
בנצ'מרקים משקרים -

87
00:05:14,600 --> 00:05:15,959
הטסטים שלכם לא.

88
00:05:16,940 --> 00:05:20,279
סוכני קוד היום משתמשים המון בכלים,

89
00:05:20,399 --> 00:05:21,959
עושים ls לקבל קבצים,

90
00:05:22,079 --> 00:05:23,989
grep כדי לחפש בהם, git status

91
00:05:24,000 --> 00:05:24,880
לראות את מצבך,

92
00:05:25,239 --> 00:05:27,000
jest או vitest כדי להריץ בדיקה.

93
00:05:27,399 --> 00:05:30,920
שימוש כזה, בעשרות, מנפח מאוד את הקונטקסט.

94
00:05:31,440 --> 00:05:32,209
דרך רביעית,

95
00:05:32,239 --> 00:05:36,880
אולי הקלה ליישום, והגאונית בפשטות שלה - להתקין כלי

96
00:05:36,880 --> 00:05:40,230
צמצום קונטקסט, מעין אוזמפיק של טוקנים.

97
00:05:40,559 --> 00:05:41,529
rtk למשל,

98
00:05:41,559 --> 00:05:45,170
שכתוב ב-rust הוא כלי שאפשר להפעיל לפני כל פקודה.

99
00:05:45,359 --> 00:05:49,880
במקום git status מריצים rtk git status והוא מפלטר

100
00:05:49,880 --> 00:05:53,519
את התשובה כך שתכלול את הדברים החשובים ביותר.

101
00:05:54,690 --> 00:05:56,140
הקלוד קוד שלך מונחה להשתמש

102
00:05:56,700 --> 00:06:01,140
ב-rtk לכל פעולה. אם rtk מכיר אותה, הוא יחסוך 80% מהטוקנים.

103
00:06:01,420 --> 00:06:01,970
אם לא,

104
00:06:02,339 --> 00:06:04,660
הוא יעביר אותה כמו שהיא למערכת ההפעלה.

105
00:06:05,260 --> 00:06:11,820
התקנה אחת, עם שיהוי זניח של 10ms לפעולה, לא רק יחסוך המון מה-input בכלים,

106
00:06:12,220 --> 00:06:16,579
גם יקטין את הצורך של קלוד ב-compaction, ויאריך את הסשנים.

107
00:06:17,989 --> 00:06:18,799
אפשר גם לחכות.

108
00:06:19,079 --> 00:06:24,399
המודלים היקרים הולכים ונעשה פחות יקרים לשימוש עם השיפור בחומרה,

109
00:06:24,760 --> 00:06:26,959
אבל הם נעשים יותר יקרים לאימון.

110
00:06:27,399 --> 00:06:32,040
מודלים שעלו עשרות מיליונים לאמן נושקים היום למיליארד דולר.

111
00:06:32,549 --> 00:06:35,920
השימוש שלך מממן את האימון שלהם.

112
00:06:37,250 --> 00:06:41,190
אחת התפניות המשמעותיות היא מעבר למודלים פתוחים.

113
00:06:41,559 --> 00:06:42,269
חשוב להבחין,

114
00:06:42,279 --> 00:06:43,359
זה לא קוד פתוח -

115
00:06:43,480 --> 00:06:46,549
אתה לא מקבל את קוד האימון או נתוני המקור.

116
00:06:47,089 --> 00:06:49,320
זה משקלות פתוחים (או Open Weights) -

117
00:06:49,720 --> 00:06:54,829
הפרמטרים הסופיים של המודל, שמאפשרים להריץ אותו באופן עצמאי.

118
00:06:55,119 --> 00:06:58,609
וזה כבר מתחיל להיות מעניין. כי לפחות יש אלטרנטיבה.

119
00:06:58,839 --> 00:07:02,579
לא צריך לצרוך ירקות מהירקן הכי יקרן בגבעתיים.

120
00:07:03,329 --> 00:07:08,130
אולי אם חפצה נפשי בשקשוקה אפשר לסחוב כמה עגבניות מבאסטה בנתניה.

121
00:07:09,380 --> 00:07:11,679
כדי להבין את האלטרנטיבה

122
00:07:11,829 --> 00:07:12,989
נעשה קצת מתמטיקה.

123
00:07:13,070 --> 00:07:18,910
כמה טוקנים צורך מתכנת, או סוכן, או בילדר, ביום עבודה ממוצע.

124
00:07:19,549 --> 00:07:22,609
בוא נעריך שמשתמש קל עושה מיליון טוקנים,

125
00:07:23,709 --> 00:07:26,200
בינוני 10 מיליון וכבד 100 מיליון, ליום.

126
00:07:27,720 --> 00:07:31,269
אם מניחים שהטוקנים מתפזרים ביחס של 4 ל-1,

127
00:07:32,269 --> 00:07:35,609
(4 טוקנים בקלט על כל טוקן אחד בפלט)

128
00:07:36,160 --> 00:07:46,000
אנחנו מדברים על עלות חודשית במודלי פרמיום של 150 לחודש בקל עד $15,000 לכבד.

129
00:07:46,720 --> 00:07:47,250
אז כן,

130
00:07:47,279 --> 00:07:55,040
אפשר להתווכח אם שווה לי לשלם $15,000 למתכנת הכי יקר שלי אם האסימונים שלו מחליפים 2

131
00:07:55,040 --> 00:08:00,399
בינוניים, או שהוא גורם לפיצ'רים לעלות פי 2 יותר מהר,

132
00:08:01,079 --> 00:08:03,950
אבל הדיון לא צריך להיות כמותי אלא איכותני -

133
00:08:03,959 --> 00:08:11,079
האם המודלים האלה, סינים ברובם, בכלל מגיעים לרמה של מעבדות השפה האמריקאיות?

134
00:08:12,339 --> 00:08:15,380
אם מאמינים לבנצ'מרקים אז כן. הם מדגדגים

135
00:08:15,380 --> 00:08:20,380
אותם במבחני תכנות, ואייג'נטיות ועולים 90% פחות.

136
00:08:21,100 --> 00:08:23,619
בפרק הקודם דיברנו על agentic loop ואיך הוא

137
00:08:23,619 --> 00:08:27,820
מתקצר כשאתה מסביר לקלוד קוד איך נראית הצלחה.

138
00:08:28,950 --> 00:08:29,750
תנשמו שניה.

139
00:08:29,829 --> 00:08:35,469
אני יודע שאתם אוהבים את אופוס וסונט וג'מיני פרו וקודקס וגרוק 4 הארד וסופר הארד,

140
00:08:36,030 --> 00:08:36,549
גם אני,

141
00:08:37,020 --> 00:08:44,969
אבל מה אם נשתמש במודלים האמריקאים ל-planning וליצירת הטסטים, ואת כל העבודה השחורה

142
00:08:45,429 --> 00:08:46,789
ניתן לעוף בשקל?

143
00:08:47,900 --> 00:08:49,159
מודל DeepSeek V3, או Kimi,

144
00:08:50,340 --> 00:08:53,109
K2.5 או MiniMax M2.5,

145
00:08:53,580 --> 00:08:56,369
כולם עולים בערך שקל לצריכה.

146
00:08:56,900 --> 00:08:57,590
במחיר הזה,

147
00:08:57,619 --> 00:09:00,309
גם אם נכפיל את מספר האיטרציות פי 3,

148
00:09:01,219 --> 00:09:05,059
אנחנו עדיין מסתכלים על חיסכון של פי 50 בהוצאות.

149
00:09:05,950 --> 00:09:10,909
המודלים האלה זולים בגלל שיטות חסכוניות, כמו MoE (או Mixture

150
00:09:10,909 --> 00:09:15,909
of Experts) - דרך להפעיל רק חלק מהפרמטרים, וגם quantization -

151
00:09:16,070 --> 00:09:21,989
עיגול בקטנה של כמה נקודות עשרוניות, מקטין במעט את אחוז הדיוק ומכפיל

152
00:09:21,989 --> 00:09:27,090
את הביצועים. אבל מיכאל, בחיית, השתגעת? לשלוח את הקודבייס שלי לסינים?

153
00:09:28,409 --> 00:09:29,489
האמת שיש בזה משהו.

154
00:09:29,609 --> 00:09:33,489
המודלים האלה זולים כי הסינים מצאו חומרה זולה,

155
00:09:34,010 --> 00:09:34,969
חשמל זול,

156
00:09:35,409 --> 00:09:39,760
מודל גנוב שנפל ממשאית או כי הם רוצים את הדאטה שלך.

157
00:09:40,609 --> 00:09:44,390
אני לא יודע מה הם צריכים עשרות פרוייקטי צד שלא הבשילו לכלום,

158
00:09:44,869 --> 00:09:50,469
אני כן רואה איך הם שמים את היד שלהם על Intellectual Property ומידע מסווג.

159
00:09:51,630 --> 00:09:52,150
הצעה -

160
00:09:52,669 --> 00:09:56,070
להשתמש בספקים הסיניים שאין לך מה להפסיד,

161
00:09:56,109 --> 00:10:00,340
שאתה לא כבול לכלום או כותב קוד שממילא ישתנה.

162
00:10:01,200 --> 00:10:02,049
הצעה 2 -

163
00:10:02,359 --> 00:10:10,640
לראות איך מריצים את אותם מודלים מחוץ לסין. ופה יש 4 אפשרויות: להריץ אותם מקומית,

164
00:10:10,760 --> 00:10:13,080
אפילו ללא צורך בחיבור לאינטרנט.

165
00:10:13,440 --> 00:10:17,400
פיתרון מושלם לעבודה במטוס או סביבה סופר מאובטחת.

166
00:10:18,200 --> 00:10:24,909
מעניין כמה חיילים בצה"ל, שלא יכולים להריץ claude מן הסתם, משתמשים במודלים פתוחים, ואילו.

167
00:10:26,520 --> 00:10:30,960
הבעיה עם הרצה מקומית היא שגודל המודל דורש זיכרון עצום.

168
00:10:31,320 --> 00:10:36,010
מודל של 70 מיליארד פרמטרים דורש 140GB זיכרון,

169
00:10:36,320 --> 00:10:37,440
רק כדי להיטען.

170
00:10:37,880 --> 00:10:41,320
מודלי הקצה הם מאות מיליארדי פרמטרים.

171
00:10:41,400 --> 00:10:47,200
גם אם תקנה את המחשב הכי חזק ב-KSP לא תצליח, פיזית, לפתוח אותם.

172
00:10:48,280 --> 00:10:50,890
זה לא שאין אפשרות לקנות חומרה כזו,

173
00:10:51,289 --> 00:10:55,330
זו פשוט דילמה של CapeX מול OpeX.

174
00:10:55,770 --> 00:10:56,929
אם תקנה שרת,

175
00:10:56,969 --> 00:10:57,969
למשל של Nvidia,

176
00:10:58,369 --> 00:11:05,890
הוא יצטרך להכיל 8 כרטיסי H100 או H200 ויעלה בין רבע לחצי מיליון דולר.

177
00:11:06,630 --> 00:11:10,489
השרת הזה מרעיש כמו שכנה ביום של הדברה בבניין -

178
00:11:11,179 --> 00:11:12,940
צריך לאחסן אותו בחווה,

179
00:11:13,340 --> 00:11:20,299
לשלם על עלויות חשמל (שהם פי 10-100 מצריכה של שרתים רגילים) ולדאוג לקירור.

180
00:11:20,820 --> 00:11:24,739
תצטרך גם מהנדס CUDA שיודע לבצע אופטימיזציה לחומרה -

181
00:11:25,099 --> 00:11:30,340
משרה שמשלמת המון - ולא בא לך לריב עם Nvidia על עובדים.

182
00:11:31,280 --> 00:11:36,409
החומרה הזו מתיישנת במהירות והכדאיות שלה היא ביחס ישר לנצילות.

183
00:11:37,010 --> 00:11:41,330
קנית שרת בחצי מיליון דולר והוא טוחן רק 25% מהזמן?

184
00:11:41,969 --> 00:11:44,380
מחיר הטוקן שלך יהיה גבוה פי 4.

185
00:11:45,130 --> 00:11:49,090
זו הסיבה שרוב החברות מעדיפות את מודל ה-OpeX.

186
00:11:49,650 --> 00:11:50,669
במקום לקנות,

187
00:11:51,130 --> 00:11:55,719
אפשר לשכור, מעבדים לפי שעה ולכבות אותם בסופי שבוע.

188
00:11:56,169 --> 00:12:01,559
חברות רבות (וגם Amazon) מציעות H200 ב-6 דולר לשעה,

189
00:12:02,330 --> 00:12:04,200
(אתה כאמור צריך 8 כאלה).

190
00:12:05,109 --> 00:12:07,000
המודל הזה מאפשר גמישות -

191
00:12:07,130 --> 00:12:13,469
אם יוצא מודל חדש בארכיטקטורה אחרת, פשוט שוכרים חומרה חדשה. אם משהו נשרף,

192
00:12:13,489 --> 00:12:14,510
מחליפים את השרת,

193
00:12:14,849 --> 00:12:18,929
אבל לא כל החברות נותנות לך לשכור מעבד רק לשעות

194
00:12:18,929 --> 00:12:24,130
העבודה, ויש גם עלות וזמן בטעינת המודל בכל פעם.

195
00:12:25,299 --> 00:12:27,820
עבור אלו שרוצים את המודלים הפתוחים,

196
00:12:27,979 --> 00:12:29,140
בלי פחד מסין,

197
00:12:29,299 --> 00:12:30,900
בלי כאב ראש של ניהול שרתים,

198
00:12:31,419 --> 00:12:33,099
בלי לחשוב על gpu או סקייל,

199
00:12:33,539 --> 00:12:36,650
אני ממליץ על ספקי תשתית (Providers),

200
00:12:36,659 --> 00:12:39,340
שמנגישים לכם API.

201
00:12:40,130 --> 00:12:42,229
אפשר להשתמש ב-Groq (עם q),

202
00:12:42,359 --> 00:12:48,440
חברה בת/מתחרה ל-Nvidia שמתכננת שבבי LPU ייעודיים למודלי שפה גדולים,

203
00:12:49,440 --> 00:12:50,479
אבל לא גדולים מדי.

204
00:12:50,590 --> 00:12:54,719
היא לא מריצה (עדיין) מודלים של מאות מיליארד פרמטרים.

205
00:12:55,659 --> 00:12:57,099
אפשר להשתמש ב-OpenRouter,

206
00:12:57,299 --> 00:13:02,080
ה"בורסה" של הטוקנים, מעין שכבת אבסטרקציה מעל עשרות ספקים ומודלים.

207
00:13:03,880 --> 00:13:10,500
מערכת שמחצינה ממשק אחיד שבו ניתן להגדיר חלוקת עומסים או מעבר אוטומטי מספק שקרס.

208
00:13:11,020 --> 00:13:11,729
אפשר לבקש -

209
00:13:11,739 --> 00:13:17,619
תן לי את הסיני הכי זול בתפריט, אבל כזה שיושב בארה"ב, ואם אין אז משהו מסחרי זול.

210
00:13:18,419 --> 00:13:20,849
הם דורשים טעינה מראש של ארנק,

211
00:13:20,979 --> 00:13:24,099
גובים גם עמלת אשראי וגם דמי שירות (חליצה)

212
00:13:25,059 --> 00:13:27,940
קטנים על כל קריאה.

213
00:13:28,380 --> 00:13:29,859
יש גם תוספת שיהוי,

214
00:13:30,909 --> 00:13:31,580
(25-40ms),

215
00:13:31,659 --> 00:13:35,580
אבל מקבלים אחלה נראות לשימוש, וחשבונית אחת.

216
00:13:36,599 --> 00:13:38,359
הבעיה, ויש 2.

217
00:13:39,090 --> 00:13:46,049
היא לא תומכת ב-Anthropic API. אי אפשר להפעיל דרכה את קלוד קוד כי קלוד מדבר אחרת.

218
00:13:46,729 --> 00:13:53,919
לרוב המשתמשים זה big no-no אבל יש פתרון. לעבור ל-ollama cloud עם תוכניות של 20

219
00:13:53,919 --> 00:14:00,340
ו-$100 שיעבדו לנצח, או להתקין claude-code-router, תוסף שיודע לתרגם קלוד ל-OpenAI API.

220
00:14:03,909 --> 00:14:09,719
אני לא מת על 2 הפתרונות האלה כי הם מרגישים לי כמו שערי מכס בדרך ליעד.

221
00:14:10,159 --> 00:14:10,929
כחברה,

222
00:14:11,200 --> 00:14:16,039
אני רוצה כמה שפחות hopים וכמה שפחות עיניים על הקוד שלי.

223
00:14:16,880 --> 00:14:22,640
הפתרון שמצאתי, נכון לעכשיו, הוא לשלם לחברת Fireworks, שמגישה מגוון

224
00:14:22,640 --> 00:14:26,880
מודלים פתוחים, מאדמת ארה"ב, עם zero data retention,

225
00:14:27,099 --> 00:14:27,840
אפס אימון,

226
00:14:28,200 --> 00:14:32,080
ומינימום שיהוי, והיא עושה את זה ב-Anthropic API.

227
00:14:33,070 --> 00:14:33,799
חיסכון?

228
00:14:34,690 --> 00:14:35,849
נחזור למתמטיקה.

229
00:14:35,929 --> 00:14:37,409
יש לך 100 עובדים בינוניים.

230
00:14:37,809 --> 00:14:38,890
כלומר הם סופר סטארים,

231
00:14:39,049 --> 00:14:40,489
אבל בינוניים בשימוש -

232
00:14:40,929 --> 00:14:42,969
נאמר 10 מיליון טוקנים ליום,

233
00:14:43,369 --> 00:14:46,169
ביחס של 4 ל-1 בין input ל-output.

234
00:14:46,690 --> 00:14:50,429
קלוד אופוס יעלה לכל מתכנת, ביום, $90 לאופוס,

235
00:14:52,390 --> 00:14:56,010
54 לסונט או 4.80 למינימקס.

236
00:14:56,409 --> 00:14:59,010
חודשית זה כבר $2,700 באופוס,

237
00:15:00,250 --> 00:15:04,479
1,620 לסונט ו-144 למינימקס.

238
00:15:06,309 --> 00:15:07,059
לשנה,

239
00:15:07,580 --> 00:15:12,950
ההבדל בין 100 עובדים שטוחנים אופוס לאלו שמדברים

240
00:15:12,950 --> 00:15:18,099
מיני מקס יהיה קצת יותר מ-3 מיליון דולר.

241
00:15:19,619 --> 00:15:25,599
העתיד של פיתוח התוכנה הוא לא רק ביכולת של המודל להבין את הקוד שלך,

242
00:15:25,820 --> 00:15:32,760
אלא ביכולת של הארגון לנהל את המשאבים שיאפשר למודל להבין יותר מהקוד שלך.

243
00:15:33,419 --> 00:15:40,530
מי שיצליח לייצר את ה"קסם" של הבינה המלאכותית בעשירית מחיר, ישלוט בשוק.

244
00:15:40,859 --> 00:15:44,580
ומי שלא מנהל inference - ינוהל על ידו.

245
00:15:45,340 --> 00:15:46,309
עד הפעם הבאה,

246
00:15:46,580 --> 00:15:48,820
תהיו טובים, ותמשיכו להיות סקרנים.

247
00:15:49,380 --> 00:15:49,590
יאללה,

248
00:15:49,619 --> 00:15:49,780
ביי.