מודלי שפה גדולים (LLMs) הפכו בשנה האחרונה למושגים מוכרים ולא רק לעוסקים במקצועות הטכנולוגיה, זאת לאחר שרבים גילו כיצד להשתמש בכלי בינה מלאכותית מודרניים שיכולים ליצור, לסכם, לתרגם, לסווג, לכתוב קוד ואפילו לשוחח בהתאם להוראות טקסט פשוטות.
ענקיות הטכנולוגיה מבשרות, חדשות לבקרים, על עוד חידושים בתחום ועל מודלים גדולים יותר, שמאפשרים ביצועים טובים יותר. גודלו של מודל שפה נמדד בדרך כלל לפי מספר הפרמטרים שעליהם הוא אומן ונמדד היום במיליארדים וצפונה; GPT-4 למשל, כולל 100+ מיליארד פרמטרים. כמות הנתונים המאסיבית המשמשת לאימון המודלים מאפשרת להם לבצע משימות שפה מורכבות מאוד, אך בה בעת מגדילה את הסיכונים לאי דיוקים או התנהגות לא מכוונת. "הזיות" בז'רגון המקצועי.
ארגונים שרוצים להטמיע יישומי בינה מלאכותית יוצרת במסגרת פעילותם השוטפת, נתקלים בלא מעט אתגרים. אחד מהם הוא העובדה ששימוש במודל גדול טומן בחובו חסרונות רבים. כך למשל, ארגונים שמעוניינים לבצע כריית מידע ממאגרי הנתונים העסקיים הפרטיים או הקנייניים שלהם, אינם יכולים להשתמש במודלי שפה גדולים "היישר מהקופסה".
כמויות קטנות של נתונים באיכות גבוהה
כדי שהיישום שהם מבקשים להפעיל יענה על שאלות ספציפיות הקשורות לתוכן המקצועי שלהם, יצור סיכומים או תקצירים ברמה מקצועית גבוהה - ולא באופן גנרי - וילמד "להבין" את הנושאים בהם עוסק הארגון, אנו סבורים שארגונים צריכים להתמקד בבניית מודלים קטנים וספציפיים לתחומם, עם נתונים ארגוניים פנימיים, כדי לבדל את יכולות הליבה שלהם ולהשתמש בתובנות מהנתונים שלהם, זאת במקום לבנות מודלים גדולים גנריים משלהם, שאליהם הם יכולים לגשת בקלות ממספר ספקים.
כאן נכנסים לתמונה מודלי שפה קטנים (SLMs). מודלים אלה מכילים בדרך כלל עד 20 מיליארד פרמטרים והם מאומנים על מנת לבצע משימות ספציפיות שונות מבוססות טקסט. היקף הנתונים המצומצם שלהם הופך אותם לגמישים יותר וכאלה הניתנים להתאמה עבור מקרי שימוש עסקי ממוקדים כמו צ'אט, חיפוש טקסט/ניתוח ויצירת תוכן ממוקד, והם מאזנים בין הצורך בין יכולת וביצועים ובין שליטה ופיקוח.
כמו שסירה קטנה קלה יותר לשליטה מספינת משא, כך גם המודלים הקטנים לעומת הגדולים. קל יותר לבנות, לשנות ולשפר מודלי שפה קטנים בהתבסס על כמויות קטנות של נתונים באיכות גבוהה. המפתחים יכולים להבין טוב יותר את פעילותם הפנימית של מודלים קטנים, ועובדה זו מקלה גם על שינויים ועדכונים הנדרשים בהמשך. הם מפחיתים את הסיכויים להזיות בשל ייצוגי ידע פשוטים יותר והם מועדים פחות לבעיות, כמו הטיה, רעילות וחוסר דיוק הרווחות במודלים גדולים.
להגיב מהר יותר
מקרי השימוש עבור מודלים קטנים אינם שונים באופן דרמטי ממודלים גדולים - הם פשוט יישומים שמותאמים יותר למשימות ספציפיות, מה שהופך אותם לבחירה טובה עבור יישומים שדורשים עיבוד יעיל, עם יחס עלות-תועלת גבוה וזמני תגובה מהירים. מודלים קטנים מציעים יתרונות בניצול משאבים, פרטיות הנתונים וביצועים, מה שהופך אותם לבחירה מצוינת עבור רבות מהסביבות הארגוניות. ניתן לעשות בהם שימוש ליצירת טקסט, סיכום, צ'טבוטים, או יישומי שאלות ותשובות, וניתן לכוונן אותן באופן מהיר לבצע משימות כמו תרגום וסיכום של חומר רפואי כמו עבודות מחקר, ניסויים קליניים ורישומי חולים, תרגום וסיכום חומר משפטי כמו חוזים, פטנטים ופסיקות, או תרגום טכני של מדריכים, מפרטים וקוד.
מאחר שהם כוללים פחות פרמטרים, מודלים קטנים יכולים לעבד, ליצור טקסט ולהגיב מהר יותר ממודלים גדולים, ומשקלם ה"קל" מאפשר להם לרוץ גם על סמארטפונים ומכשירי קצה, עם דרישות מחשוב נמוכות יותר, שגם צורכים פחות אנרגיה ופוגעים פחות בסביבה. ועוד יתרון, מודלים קטנים מציגים חיסכון ניכר בעלויות בניגוד לדגמים כמו GPT-3.5 ו-GPT-4. ההוצאה על יצירת סיכום פסקה עם LLaMA 2, שיש לה שלוש וריאציות - 7 מיליארד, 13 מיליארד ו-70 מיליארד - נמוכה בערך פי-30 מזו של GPT-4, כל זאת תוך שמירה על רמת דיוק שווה.
אז האם קטן עדיף מגדול?
ארגונים רבים יכולים למנף את היכולות יוצאות הדופן של מודלי שפה גדולים, אך לחברות הפועלות בתחומים מסוימים - למשל, בתחומי הבריאות, האנרגיה, הבנקאות או הטלקום - שם יש תוכן מקצועי הדורש למידה וניסיון, יש צרכים ממוקדים והתמחות ספציפית.
בגלל גודלם הקטן יותר, ניתן לארח מודלים קטנים במרכז הנתונים של הארגון במקום בענן. הם עשויים אפילו לפעול על שבב GPU יחיד ובכך לחסוך אלפי דולרים בעלויות מחשוב שנתיות. עם זאת, הגבול בין מה שניתן להפעיל רק בענן או במרכז נתונים ארגוני הופך פחות ברור עם ההתקדמות בעיצוב השבבים.
בין אם זה בגלל עלות, שיקולי פרטיות או רגולציה המחייבת פיקוח על הנתונים, ייתכן שארגונים ירצו להפעיל מודלים קטנים במרכזי הנתונים שלהם. בדרך כלל, רוב הארגונים לא אוהבים לשלוח את הנתונים שלהם לענן.
כוונון עדין, ביצועים מרשימים
אחד היתרונות העיקריים של מודלים קטנים טמון בקלות הכוונון שלהם להשגת ביצועים מרשימים. תכונה כזו הופכת אותם למתאימים במיוחד לכוונון עדין, ומציעה יתרונות משמעותיים לעסקים קטנים או לסטארט-אפים הלהוטים להיכנס לעידן הבינה המלאכותית היוצרת באופן מהיר ובהשקעה נמוכה יחסית.
IBM הודיעה לאחרונה על זמינותו של מודל הבינה המלאכותית הפתוח Mistral AI על גבי פלטפורמת הבינה המלאכותית שלה watsonx. מדובר אמנם במודל שפה גדול, אך הוא קומפקטי ודורש פחות משאבים להפעלה לעומת מודלים גדולים אחרי. הוא גם יעיל באותה מידה ובעל ביצועים טובים אף יותר בהשוואה למודלי שפה גדולים "מסורתיים".
IBM גם הוציאה את מודל Granite 13b, שנבדק במבדק בתחום הפיננסים בין היתר בהשוואה למודל Llama 270b, ונמצא שעבר 9 מתוך 11 משימות במבדק עם ביצועים טובים יותר, למרות שהוא קטן ביותר מפי-חמישה. הסיבה לכך היא ש-IBM Granite הוכשרה עם נתונים נוספים וטובים יותר בתחום הפיננסים הספציפיים לתעשייה.
המגמה תופסת תאוצה
העבודה המשותפת הרבה של IBM עם סטארט-אפים וספקי תוכנה עצמאיים (ISVs) מלמדת שהמגמה של אימוץ מודלים קטנים ופתוחים על פני מודלים גדולים תופסת תאוצה. לאחר התנסות ראשונית עם מפתחות מודלי הענק, החברות הללו מבינות טוב יותר את האתגרים של יצירת פתרונות בינה מלאכותית עבור ארגונים, ואת היתרונות שעבודה במודלים קטנים יכולה לתת.
ראשית, העבודה עם מודלים גדולים דוגמת GPT4 או Claud כרוכה בעלויות גבוהות, גם בשלב הכיוונון העדין (fine tunning) והופכת את הפתרון ללא כלכלי. ללקוחות ארגוניים גדולים יש גם חשש גדול מעבודה על מודלים הנמצאים בענן ציבורי והם מעדיפים מודלים הנמצאים בסביבת העבודה הפרטית שלהם. כמו כן, באמצעות prompt engineering נכון, ניתן להגיע לתוצאות זהות לאלו של מודלים גדולים, בעלות נמוכה יותר, ועם יתרונות הפרטיות ואבטחת המידע, כך שעבור מקרי שימוש עסקיים אין הצדקה עסקית למודל גדול.
הכותב הוא מנהל שיתופי הפעולה בסקטור ההייטק, IBM Israelבשיתוף IBM




