שנת 2025 הייתה השנה בה מודלי AI גנרטיביים כמו ChatGPT, Gemini ו-Claude התחילו להוכיח את עצמם. בין אם עבור שימוש אישי, בנייה של תוכניות עסקיות או לצורך כתיבת אפליקציות מתקדמות. לפי סקר של גרטנר שפורסם לאחרונה, המודלים התחילו לספק תוצאות מדויקות אשר מגדילות את התפוקה שלנו באופן משמעותי. כתוצאה מכך, יותר ויותר אנשים החלו להיחשף ולהשתמש במודלים באופן יום-יומי. חלקם עושים זאת באפיק הישיר על ידי גלישה למודל המועדף עליהם והשאר כנראה כבר נחשפו ל"בוטים" שונים שמפעילות חברות, גדולות כקטנות, במטרה לייעל את מערך שירות הלקוחות שלהן.
עלייה זו הובילה לדיווח של מספרים מרשימים על ידי ספקי שירותי ה-AI - חברת OpenAI למשל הכפילה בשנה החולפת את מספר המשתמשים הרשומים שלה ועומדת על כ-800 מיליון משתמשים פעילים בשבוע. בו בזמן, Google מתארת קפיצה של בערך פי-50 בכמות הטוקנים (מילים) שהמודלים שלה מעבדים ומייצרים כחלק מתשובות עבור משתמשים - כמעט 500 מיליארד מילים בחודש.
המחיר האמיתי של מודלים שימושיים
יחד עם הגידול באימוץ פתרונות AI מגיעות גם המורכבויות. עד היום, רוב הארגונים וספקי ה-AI התמקדו בעיקר באימון המודלים - הפיכת התשובות שמודל ה-AI מספק לטובות ומדויקות יותר. אך הגידול בשימוש והפופולריות של המודלים יצרה נדבך חדש של מורכבות איתו נדרשות להתמודד חברות שרוצות להכניס פתרונות מבוססי AI כחלק מהשירותים שלהן.
ראשית, כמות המילים המופקת על ידי מודלים רק הולכת וגדלה. לפני שנה התחלנו להיחשף למודלי ה-"Thinking" וסוכני ה-AI, אשר העלו משמעותית את כמות המידע שמודל נדרש לעבד על מנת לענות על שאלה פשוטה. לדוגמה, שאלה כמו "מה מזג האוויר בתל אביב?" יכולה להוביל לתהליך עיבוד מתקדם בו המודל שולף מידע ממספר מקורות, משווה ביניהם, בודק סטיות, מחשב ממוצעים ומייצר תשובה מקיפה.
עלייה זו בצרכי העיבוד לא מתרחשת בוואקום. מודלים גדולים מחייבים שימוש בכרטיסי עיבוד גרפיים מתקדמים לצד צריכה משמעותית של חשמל וקירור. בסביבות ענן, ארגונים תלויים בתמחור ובזמינות שמכתיבות ספקיות הענן, ובפועל כבר נרשמה התייקרות במחירי מכונות הכוללות כרטיסים גרפיים.
בעיה מרכזית נוספת מתייחסת ל-context שמועבר למודל. היכולת של מודל AI לספק תשובה רלוונטית מושתתת ברובה על "הרקע" אליו חשוף המודל - למשל, מידע על הארגון, השירותים שהוא מספק, תהליכי עבודה, טרמינולוגיה פנימית ומאפייני הלקוחות. ככל שלמודל יש גישה להקשר מדויק יותר, כך התשובות נוטות להיות רלוונטיות יותר עבור משתמש הקצה. עם זאת, "הרקע" שארגונים יכולים להעביר למודלים ציבוריים מוגבל בעקבות הנחיות רגולטוריות הנובעות מחשש לדליפת מידע, או שימוש במידע לטובת אימון ושיפור שירותיה של ספקית ה-AI.
פלטפורמה אחת לענן היברידי
במטרה להתמודד עם אתגרים אלו, רד האט הרחיבה את שיתוף הפעולה שלה עם NVIDIA והשיקה גרסה מיוחדת של פלטפורמת ה-Linux הארגונית המובילה בעולם, המותאמת עבור פלטפורמת NVIDIA Vera Rubin ומכוונת להניע ייצור עתידי על Red Hat OpenShift ו-Red Hat AI.
פלטפורמת ה-AI החדשה של NVIDIA נועדה לצמצם את ההוצאות השוטפות של חברות על הרצה של מודלי AI ולאפשר מקום להרצה של מודלים בתוך הארגון. בבסיסה, הפלטפורמה בנויה משרתים המורכבים מהמעבד Vera והכרטיס הגרפי Rubin החדשים. השרתים מחוברים זה לזה באמצעות כרטיסי רשת ורכיבי תקשורת עוצמתיים, המאפשרים לכרטיסים גרפיים בין שרתים לעבוד יחד בצורה הדוקה כיחידה אחת.
במסגרת שיתוף הפעולה בין רד האט ו-NVIDIA, הודיעה רד האט על אינטגרציה מלאה של המוצרים Red Hat Enterprise Linux, Red Hat OpenShift ו-Red Hat AI ל-Vera Rubin מהיום בו הפלטפורמה של NVIDIA תהיה זמינה לצרכנים.
שיתוף הפעולה מאפשר לארגונים לפרוס את מערך ה-AI של NVIDIA על גבי פלטפורמות יציבות ובטוחות של חברת רד האט שכבר הוכיחו את עצמן בייצור עבור ארגונים רבים. בנוסף, הפתרון המשותף תואם את גישת הענן ההיברידי ומאפשר לארגונים למתוח את פלטפורמת ה-AI שלהם מהענן הציבורי אל תוך הדאטה סנטר. שילוב של Red Hat AI במסגרת הפתרון המשותף מאפשר לארגונים להריץ ולהנגיש מודלים עם קונטקסט ארגוני בצורה יעילה, מהירה ומבוזרת באמצעות שימוש בטכנולוגיות כמוvLLM ,MaaS, llm-d ו-llm-compressor המפותחות בחברה.
שיתוף הפעולה בין NVIDIA לרד האט מסמן את המעבר של עולם ה-AI משלב הניסויים לשלב הייצור המסיבי. בעוד ש-2025 הייתה השנה שבה המודלים הוכיחו את יכולתם, שנת 2026 היא השנה שבה ארגונים נדרשים להוכיח כי הם מסוגלים להפעיל אותם בצורה רווחית ובטוחה.
הכותב הוא ארכיטקט פתרונות בכיר, רד האט
בשיתוף רד האט






