פרק 26: הצבא הנסתר של מודלי שפה

הורדה MP3
הסוד הכי יקר ואולי הכי אירוני, הוא שהרבה ממהפכת ה-AI, ההצלחה והאנושיות שבמודלי שפה תלוי באנשים. זה כלכלה משוגעת שהטיסה חברות כמו ScaleAI ו-Mercor. האם היא פסחה על Fiverr הישראלית או Upwork? על סעיפי ההוצאה באימון מודלים, כמה שוקל שרת של Nvidia ומה זה RL?

בוא נדבר על הסוד הכי יקר והכי אירוני בכל מהפכת ה-AI. אנחנו כל הזמן שומעים על האלים הדיגיטליים שאנחנו בונים. מודלי שפה ענקיים עם מיליארדי פרמטרים שרצים על מחשבי-על בעלות אסטרונומית. מודלים שיכולים לכתוב שירה, לתכנת, לעבור את מבחני הלשכה. אנחנו מדברים עליהם במונחים של אוטומציה, חשיבה, טמפרטורה, אבל הסוד הקטן הוא שמודלי ה-AI האלה, בגדול, הם תינוקות. הם מכירים את כל האינטרנט בעל פה, אבל אין להם טיפת common sense, אין להם ערכים, והכישורים החברתיים שלהם הם של בלטת אקרשטיין.

אז מה עושים? שוכרים צבא. צבא של הבייביסיטרים הכי יקרים בהיסטוריה האנושית. וזו לא עבודה צדדית, זו תעשיית צללים שמגלגלת ים כסף. היום, נרים את המסך מעל הצבא הזה. נכיר את מנהיגיו, אנשיו וננסה להבין מה הם עושים כל היום.

צעד אחורה. מודל שפה גדול, למשל זה של GPT-3, שנחשב היום צעצוע, עלה לפי הערכות 4 מיליון דולר. GPT-4? מאה מיליון דולר. ו-GPT-5? קרוב למיליארד. וזה רק לריצת אימון אחת. טעית? שכחת נקודה פסיק? בא לך לשנות משהו? אתה מתחיל מהתחלה.

זה טורניר לאמיצים במיוחד, וגם הסיבה שרק קומץ חברות (OpenAI, גוגל, מטא ו-Anthropic) משחקות בשולחן הפוקר הזה.

הסעיף הכי ברוטלי בחשבונית הוא מיחשוב. אנחנו מדברים על עשרות אלפי מאיצים גרפיים של NVIDIA, כמו ה-H100, שרצים בלי הפסקה חודשים על גבי חודשים. הכרטיסים האלה מגיעים לרוב בחבילה של 8, מקוררים עד לעצמות, בתוך שרת, DGX, גם הוא תוצרת Nvidia ששוקל 130 קילו ומקושר ב-Infiniband, גם הוא של ג'נסן. כל אלו יושבים בחוות שרתים ממוזגות, צורכים חשמל כמובן, ומנוהלים ע"י צוותי infra מהטובים בעולם.

98% אחוז מהתקציב הולך לשם. היתר? מושקע בדאטה.

מודל שפה גדול הוא מה שהוא אוכל. והדיאטה שלו מורכבת מכל האינטרנט. הדאטה הזה נשתה ברובו מהרשת הציבורית - מרק כאוטי, מבולגן, יש יאמרו רעיל ביותר. הוא גם נרכש בחלקו - ממוציאים לאור, מגזינים ואתרים פרטיים. יש עלות להביא את הדאטה, אבל גם מאות שנות-אדם של מהנדסים שצריכים לנקות אותו (למשל מפרטים מזהים), לסנן כפילויות, לדרג ולנקד. זה פטה-בייטים של טקסט.

אבל הדאטה הזה, בעיקר ה"חינמי" הוא ערבוביה של חטאים קדמוניים. שם נמצא כל ה-biases, כל הפייק ניוז, כל השנאה, וגם הבורות של האנושות.

כאן גם מתחיל הסיפור של היום. אחרי שלב ה-pre-training, מודל שפה הוא חיה. חזקה, אבל פראית ולא מאולפת. כדי להפוך אותה לגור צ'או צ'או או מסטיף טיבטי, מוצר שאשכרה אפשר למכור, צריך להשלים שני שלבים נוספים.

שלב ה-SFT או Supervised Fine-Tuning, בו משלמים למומחים, אנושיים, לכתוב אלפי דוגמאות של "איך נראית תשובה מושלמת לשאלה בתחום מומחיותם".

שלב ה-RLHF או Reinforcement Learning from Human Feedback, בו המודל כבר יודע לענות, אבל לא תמיד בצורה שאנחנו רוצים. כאן נותנים למודל לייצר כמה תשובות שונות לאותה שאלה, ואז משלמים לבני אדם כדי שידרגו אותן מהטובה לגרועה ביותר. הפידבק הזה, הדירוגים האנושיים האלה, משמשים לאמן מודל reward - שלומד מה בני אדם אוהבים. שמקודד העדפה אנושית. זה תהליך אינסופי, יקר בטירוף, וכרגע - צוואר בקבוק מרכזי בתעשייה.

לעלות האדירה הזו, יש גם שם, "מס התאמה או alignment" והוא הבסיס למודל העסקי של חברות כמו Scale AI ו-Mercor. אלו הפכו כאב ראש יקר מאוד של תעשיית ה-AI למוצר שלהן.

נגיד שוב, המודלים הגולמיים הם חזקים, אבל בלתי שמישים מבחינה מסחרית ואתית בגלל הזיות, הטיות ורעילות. הדרך היחידה "ליישר" אותם, להפוך אותם לשימושיים ואנושיים היא באמצעות RLHF. וזה לא תיקון תוכנה חד-פעמי; זו אופרציה לוגיסטית מפלצתית, מתמשכת שדורשת גיוס, ניהול ובקרת איכות, של אלפי פרילנסרים ברחבי העולם. ובפעם האחרונה שבדקתי, OpenAI ו-Anthropic הן מעבדות מחקר, לא סוכנות manpower גלובלית.

הפער הזה יצר קטגוריה חדשה של חברות "Human-as-a-Service" שיעשו alignment לכל מה שתבקש.

אחת מהן, Scale AI, היא קלישאת סיליקון וואלי. אלכסנדר וואנג, נער פלא בן 19, שבעט בילקוט של MIT, רצה לבנות מצלמת מקרר כדי לדעת מתי נגמר החלב. הוא מבין מהר שהבעיה היא לא הקוד, אלא להשיג מספיק תמונות מייצגות של קרטוני חלב כדי לאמן את המודל. האסימון נופל לו לקורנפלקס: דאטה הוא צוואר הבקבוק של כל מהפכת ה-AI.

הוא בנה את Scale אז, בעיקר לתיוג דאטה לתעשיית הרכב האוטונומי. תחשבו, אלפי אנשים, שכל היום יושבים מול מסך ומציירים ריבועים סביב הולכי רגל, רמזורים וכיכרות. עבודת נמלים דיגיטלית. אבל כשהעולם עבר מרכבים אוטונומיים למודלי שפה, וואנג עשה פיבוט - במקום לספק פיקסלים ברמת מיומנות נמוכה, הוא עבר לספק קוגניציה ברמת מיומנות גבוהה. במקום לצייר ריבועים, העובדים שלו התחילו להעריך תשובות של LLMs, לבצע RLHF וגם לעשות red teaming - לנסות "לשבור" את המודל כדי למוצא חולשות.

Scale הפכה למלכה הבלתי מעורערת של התחום, מפלצת של 14 מיליארד דולר שעובדת עם כולם: גוגל, מיקרוסופט, OpenAI, מטא ואפילו משרד ההגנה האמריקאי. אבל גם סיפור טוב צריך לדעת להרוס. במאי 2024, מטא שפכה מיליארד דולר על החברה ו-Scale הפסיקה להיות שוויץ הנייטרלית. הרעיון שיריבה גדולה שלך מחזיקה נתח בחברה ש"מחנכת" לך את ה-AI גרם ל-OpenAI וגוגל לקרוע את החוזים מול Scale. אה, והדובדן שבקצפת? אותה Scale עכשיו תובעת בכיר לשעבר שעברה למתחרה הכי גדולה, Mercor על גניבת סודות מסחריים.

ו-Mercor? היא עוד קלישאה. שלושה חברים מהוואלי שבעטו בילקוט מהקולג' והרימו marketplace. ידני וצנוע, שמחבר מפתחים הודים לסטארטאפים אמריקאים. הם עושים הכל ידנית, מתקשרים בדיסקורד, מעדכנים קבצי אקסל, ומבינים, שאצלם, צוואר הבקבוק הוא סינון המועמדים. הם מפתחים כלי AI לראיונות, ודי מהר קולטים שאפשר לפתור איתו בעיית גיוס בסקייל ענק.

המודל העסקי של Mercor הוא אנטיתזה לעולם הישן של תיוג. הוא אנטידטה. הם לא מחפשים לענות על שאלות קלות. הם בונים marketplace של מומחי-על, מגייסים סלקטיבית דוקטורים, עורכי דין, רופאים, מומחי מכירות, וגם זוכי מדליות במתמטיקה. הם משלמים פרמיה (השכר הממוצע אצלם הוא 95 דולר לשעה, לעומת 30 ב-Scale AI). הם מוצאים את המומחים האלה, ואז הם נשלחים לאמן את מודלי ה-AI של הלקוחות שלהם.

מרקור הפכה לאלטרנטיבה הנייטרלית וקפצה ממיליון ל-100 מיליון ARR בפחות משנה.

שתי חברות ושני זרמים בשוק ה-human-in-the-loop. אחת מקדשת "סדנאות יזע דיגיטליות", המבוססות על עבודה זולה ופשוטה. אגב זה לא חדש, Amazon Mechanical Turk ו-Appen המציאו את העולם הזה לפני עשורים - האפשרות לשלוח, ב-API מיקרו-מטלה לצבא של עבדים.

השניה, שמובילה "כלכלת מומחים" המבוסס על מיומנות גבוהה ושכר גבוה.

שני הזרמים משקפים התפתחות טכנולוגית של ה-AI עצמו. הגל הראשון של AI, כמו ראייה ממוחשבת דרש כמויות אדירות של עבודת תיוג פשוטה. הגל השני, של ה-GenAI דורש סוג אחר לגמרי של קלט אנושי. כדי ללמד LLM לכתוב חוזה משפטי, אתה צריך את סול גולדמן. כדי ללמד אותו לתת עצה רפואית, אתה צריך את ד"ר שניידר קופר. המשימה היא כבר לא "צייר ריבוע" אלא "הערך את הקוהרנטיות הלוגית וההשלכות האתיות של הפסקה הזו". זה כשל במודל הישן. אי אפשר למצוא דוקטור לפיזיקה שיסכים לעבוד ב-5 דולר.

אוקיי, אז למה לעזאזל ענקיות כמו גוגל או OpenAI לא פשוט בונות צבא פנימי משלהן של מאמני AI? למה להוציא את זה החוצה?

מאותה סיבה ש-Uber לא שולחת מתנת חג לנהגים שלה. הם לא שלה, והיא לא רוצה להתעסק איתם. פיתוח AI הוא ממש לא לינארי. חודש אחד אתה צריך 5,000 שעות פידבק של מומחי Python כדי לשפר את Codex, וחודש אחרי 10,000 שעות מסופרי נובלה. לבנות צוות כזה, לפטר צוות כזה, יהיה סיוט HR מתמשך.

יש גם עניין של יעילות. השכר השעתי למומחים גבוה, אבל זה עדיין זול יותר מלהעסיק אותם כעובדים מן המניין עם הטבות, ותן-ביס ואופציות.

וכמובן. הפוקוס. OpenAI היא חברת מו"פ.

אז למה העבודה הזו לא זלגה לפלטפורמות קיימות? כמו פייבר או Upwork? אגב יכול להיות שכן, אני רק מעריך:

קודם כל הפלטפורמות האלה הן מרוץ לתחתית. במחיר. הן לא בנויות לאיתור וסינון של טאלנטים מומחים ונדירים. האיכות של המועמדים לא עקבית, והיא גם לא ממש מבוקרת. כולם יכולים לעלות על אלגנט, להצטלם ולהציע שם שירותים. זה הפוך ממרקטפלייסים כמו toptal, שעושה pre-vetting לטופ 3%, אבל toptal מתמקדת בתוכנה.

סיבה שניה היא היעדר כלים. Scale ו-Mercor לא מספקות רק אנשים, אלא פלטפורמה שלמה, עם כלים ייעודיים לתיוג, הערכה וניהול workflow.

ולבסוף, שירות מנוהל. החברות האלה מוכרות תוצאה, לוקחות אחריות על האיכות. זה ההבדל בין לקנות מצרכים בסופר לבין להזמין קייטרינג.

אגב, זה לא תמיד היה ככה. כשהיה צריך כוח אדם בזול, גם כזה שעושה דברים נוראיים כמו בקרת תכנים, מטא דווקא שכרה אלפים. האנשים האלה יצאו ממטא עם הפרעות דחק פוסט-טראומטיות, והרבה מהעבודה הזו עברה דרומית לקו המשווה. לא באמת צריך מישהו מאירלנד או ארה"ב לתייג תמונות וסרטונים לא ראויים. כך הפקה אפריקה הפכה להיות המקום שבו משלמים בקילו על מילוי משימות, בעיקר דרך חברות כמו Sema ו-Cloudfactory.

אוקיי אז הבנו למה לא כדאי ל-OpenAI להיות הבייביסטר. אבל למה כן? כי חברות חיצוניות שולטות על חלק קריטי, סופר רגיש במודל שלהן: הזרקת הערכים, האתיקה והאישיות. מה טוב? מה בטוח? מה מועיל? נתת ל-Mercor לייצר alignment, בעצם נתת לה לשלוט בנשמה של המודל, ואתה סומך עליה שתיישר אותו בנאמנות אליך, בלי להכניס הטיות משלה, או להדליף חולשות, שלך.

אוקיי, אז זה ביזנס ענק. אבל האם כל המאמץ האנושי הזה באמת הופך את ה-AI לטוב יותר? כן, ולגמרי. כבר ב-2022 השוותה OpenAI בין מודל מפלצת של 175 מיליארד פרמטרים (גולמי, כזה שלא עבר RLHF) למודל פצפון של מיליארד עם פידבק אנושי. בני תמותה העדיפו באופן גורף תשובות של המודל הקטן והמחונך וגם ה-hallucinations שלו היו קטנים בחצי.

זה אולי נשמע קצת מגביל, אבל הכרחי. אם תשאל מודל גולמי "איך פורצים לבית של השכן?", הוא עלול לתת לך מדריך מפורט, כי הוא ראה טקסטים כאלה באינטרנט. מודל שעבר RLHF יגיד לך: "אני לא יכול לעזור לך עם זה, פריצה לבתים היא לא חוקית ומסוכנת". השינוי הזה לא קרה מעצמו; אלפי בני אדם לימדו אותו את הגבול הזה.

חברת Anthropic לקחה את זה קדימה. הם יצרו "חוקה" - סט של עקרונות (חלקם לקוח מהצהרת זכויות האדם, מסתבר) והם משתמשים ב-AI כדי לבדוק אם התשובות עומדות בחוקה הזו. זה ניסיון להפוך את תהליך ה-alignment ליותר סקיילבילי, ו-90% יותר זול, אבל עדיין נדרשים בני אדם שיגדירו את העקרונות האלו, וגם יעדכנו אותם.

אגב, יש פה מלכוד. RLHF לא רק הופך מודלים לטובים יותר; הוא הופך אותם לטובים יותר בלהישמע משכנעים, גם כשהם טועים. אחרי RLHF, בני אדם מצליחים פחות לזהות מתי ה-AI משקר להם. המודל לומד את הסגנון הרטורי של תשובה בטוחה ונכונה, ונהנה להחיל את הסגנון הזה גם על מידע שגוי. Mercor לא רק מאמן מודלים להיות מועילים, אלא שקרנים טובים יותר.

לאן כל זה הולך?

אם אתה זוכה פרס נובל, העבודה שלך מובטחת. בצחוק. מומחי-על בתחומם, עורכי הדין הכי טובים, הקרדיולוגים הכי טובים, המדענים הכי מבריקים יפנו למקצוע חדש, סופר מתגמל של מאמני AI. הם יעבירו ידע סופר נישתי לקוד, למשהו שאני ואתה יכולים לצרוך.

שוק הדאטה יתפצל. במקום Scale AI גנרית, אולי נראה חברות בוטיק מתמחות. "אנחנו מאמנים AI רק על קומיקיסים של זבנג מהמאה ה-19", או "אנחנו הכי טובים בפציעות ספורט לקפיצה משולשת". ככל שהיישומים של AI יהפכו ליותר ספציפיים, כך גם המאמנים.

ואולי, כמו שסיליקון וואלי אוהבת, תוכנה תאכל שוב את כולם. ה-human-in-the-loop יעלם ומעבדות ה-AI יגרמו ל-AI לאמן את עצמו. זה נקרא RLAIF או Reinforcement Learning from AI Feedback והרעיון הוא להשתמש במודל הכי טוב שלך (נניח GPT-5) כדי לתת פידבק למודל הבא שלך.

עשרות, אולי מאות מיליונים עובדים בכלכלת הרפאים הזו. הם מתחבאים מאחורי APIs, מספר קבלני משנה, הרבה NDAs, וניצול. 8 מתוך 10 משימות בממוצע נדחות ע"י המזמין. תתלונן? וחשבון הפרילנסר שלך יימחק. החברות צריכות שהעובדים האלה ישארו בלתי נראים כדי לתמוך באשליה של אוטומציה. אם התלות בהם תמשיך, ובמיוחד אם RLAIF לא יקרה, כל חברות ה-AI יצטרכו להודות בהתערבות אנושית, וגם לספוג ירידה של 30-40% בשווי.

עד אז, כל תשובה מ-ChatGPT עשויה לכלול טראומה של בקר תוכן מקניה, ניצול של עובד בונצואלה, שכר שנגנב ממישהו בפיליפינים. אז ברור שהטכנולוגיה משוגעת ועובדת ממש טוב, אבל.. באיזה מחיר?

עד הפעם הבאה, תהיו טובים ותמשיכו להיות סקרנים. יאללה ביי.

פרק 26: הצבא הנסתר של מודלי שפה
האתר Free Podcast מוגש על-ידי