האינטרנט שגוגל לא מכיר - דיגיטל - TheMarker
 

אתם מחוברים לאתר דרך IP ארגוני, להתחברות דרך המינוי האישי

טרם ביצעת אימות לכתובת הדוא"ל שלך. לאימות כתובת הדואל שלך  לחצו כאן

תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

האינטרנט שגוגל לא מכיר

מאחורי האינטרנט כפי שאנו מכירים אותו מסתתרת רשת גדולה הרבה יותר של מידע חבוי. האם טכנולוגיות שמטרתן הבנה וקטלוג של מידע זה ישנו את האופן בו אנחנו רואים את האינטרנט?

תגובות

באחד הימים של הקיץ האחרון, מנוע החיפוש של גוגל הגיע בשקט לציון דרך היסטורי. הוא הוסיף את הכתובת הטריליון (אלף מיליארד) לרשימת האתרים אותם הוא מכיר. אולם עצום ובלתי נתפש ככל שיישמע, מספר זה מייצג רק חלק קטן מהרשת כולה. מעבר לכל אותם טריליון דפים, קיימת רשת גדולה אפילו יותר של מידע חבוי: נתונים פיננסיים, קטלוגי מכירות, לוחות זמנים של טיסות, מחקרים רפואיים, וסוגי מידע רבים נוספים, שמאוחסנים בבסיסי נתונים הנותרים ברובם בלתי נראים מבחינת מנועי החיפוש. האתגרים העומדים בפני מנועי החיפוש הגדולים בניסיונם לחדור לרשת זו, שזכתה לכינוי "הרשת העמוקה" ("Deep Web"), ממחישים למעשה מדוע הם עדיין אינם יכולים לספק תשובות משביעות רצון לשאלות כגון "מהו התעריף הטוב ביותר לטיסה מניו-יורק ללונדון ביום שלישי הבא?" - התשובות קיימות ברשת, אילו רק מנועי החיפוש היו יודעים היכן לחפש.

כעת, סוג חדש של טכנולוגיות ההולכות ומתגבשות עתיד להרחיב את הישג ידם של מנועי החיפוש אל תוך הפינות האפלות ביותר של הרשת. כאשר תצאנה אל הפועל, הטכנולוגיות הללו אמורות לעשות יותר מסתם לשפר את איכות תוצאות החיפוש - הן עשויות בסופו של דבר לעצב מחדש את האופן בו חברות רבות עושות עסקים באינטרנט.

מנועי חיפוש מסתמכים על תוכנות המוכרות בשם crawlers (או בעברית, זחלני רשת), אשר אוספות מידע על ידי סריקת מארג הקישורים ממנו למעשה מורכבת רשת האינטרנט. בעוד גישה זו עובדת היטב עבור הדפים שמרכיבים את פני השטח של הרשת, התוכנות הללו מתקשות הרבה יותר לחדור אל תוך מסדי הנתונים שתפקידם לתת מענה לשאילתות אותן מזינים הגולשים. "הרשת כפי שרואים אותה ה-crawlers היא רק קצה הקרחון", אומר אנאנד ראג'ארמאן, אחד ממייסדי קוסמיקס (Kosmix), חברת סטארט-אפ בתחום ה-Deep Web שהמשקיעים בה כוללים את ג'ף בזוס, מנכ"ל אמזון. קוסמיקס פיתחה תוכנה שמשווה בין תוצאות חיפוש לבין בסיסי נתונים בעלי הסיכוי הגבוה ביותר להכיל מידע רלוונטי, ואז מחזירה סקירה כללית של הנושא כפי שהוא משתקף מהמקורות השונים. "מרבית מנועי החיפוש מנסים לסייע לכם למצוא מחט בערימת שחת", מסביר ראג'ארמאן, "אבל מה שאנחנו מנסים לעשות זה לסייע לכם לחקור ולהבין באמת את אותה ערימת שחת".

צוללים לעומק

כל מה שצריך לדעת על קריירה בהייטק
כנסו למתחם

ערימת השחת עליה מדבר ראג'ארמאן גדולה באופן אינסופי כמעט. עם מיליוני מסדי נתונים המחוברים לרשת, ואינספור פרמוטציות אפשריות של מושגי חיפוש, אין שום דרך למנוע חיפוש, יהיה רב עוצמה ככל שיהיה, לבחון בזמן אמת כל קומבינציה אפשרית של מידע. על מנת לשאוב מידע בעל משמעות מהרשת העמוקה, מנועי חיפוש חייבים לנתח את מונחי החיפוש של המשתמשים ולהבין כיצד לתווך בין השאילתות הללו לבין בסיסי נתונים רלוונטיים. לדוגמה, אם משתמש מקליד את המילה "רמברנדט", מנוע החיפוש צריך לדעת איזה מסד נתונים הוא בעל הסיכוי הגבוה ביותר להכיל מידע אודות אומנות (למשל קטלוגים של מוזיאונים, גופים המנהלים מכירות פומביות, וכדומה), ואילו סוגים של שאילתות אותם מסדי נתונים מוכנים לקבל.

גישה זו אולי נשמעת פשוטה בתיאוריה, אולם בפועל המגוון העצום של מבני הנתונים ושאילתות החיפוש האפשריות מהווה אתגר חישובי לא פשוט כלל. "מדובר על בעיית אינטגרציית הנתונים המעניינת ביותר אותה ניתן להעלות על הדעת", אומר אלון הלוי, פרופסור לשעבר למדעי המחשב באוניברסיטת וושינגטון, העומד כיום בראש צוות בגוגל שמנסה לפתור את בעיית הרשת העמוקה. אסטרטגיית החיפוש של גוגל בכל מה שקשור לרשת העמוקה כוללת הפעלה של תוכנה המנסה לנתח את התוכן של כל בסיס נתונים בו היא נתקלת. למשל, אם מנוע החיפוש נתקל בדף אינטרנט המכיל טופס שקשור לאומנות, הוא מתחיל לנחש שאילתות חיפוש הגיוניות - "רמברנדט", "פיקאסו", "ורמיר", וכן הלאה - עד שאחת מהשאילתות מחזירה התאמה. בשלב זה מנוע החיפוש מנתח את התוצאות ומפתח מודל חיזוי לגבי מה מכיל בסיס הנתונים.

האתגר של גוגל

באופן דומה, פרופסור ג'וליאנה פרייר מאוניברסיטת יוטה עובדת על פרויקט שאפתני שנקרא DeepPeep, שבסופו של דבר שואף לסקור ולקטלג את כל בסיסי הנתונים ברשת הפומבית. חילוצו של התוכן מתוך בסיסי נתונים כל כך שונים ונרחבים הוא למעשה סוג מורכב של משחק ניחושים ממוחשב. "הדרך הנאיבית תהייה להפעיל שאילתה על כל אחת מהמילים במילון", אומרת פרייר. לחילופין, DeepPeep מתחיל על ידי הפעלה של מספר קטן של שאילתות לדוגמה, על מנת שנוכל לעשות בכך שימוש בכדי לבנות את ההבנה שלנו לגבי בסיס הנתונים, ולבחור אילו מילים כדאי לחפש בהמשך". לאחר מכן, בהסתמך על ניתוח זה, התוכנה משגרת באופן אוטומטי מושגי חיפוש, זאת בניסיון לחלץ כמה שיותר מידע. פרייר טוענת שהגישה שלה מצליחה לחלץ יותר מ-90 אחוז מהתוכן המאוחסן על כל בסיס נתונים נתון. יש לציין שעבודתה של פרייר משכה ניסיונות הידברות מצידה של אחת החברות הגדולות בעולם בתחום מנועי החיפוש.

בעוד מנועי החיפוש הגדולים מתחילים לבחון כיצד לשלב מידע מתוך הרשת העמוקה בתוצאות שלהם, עליהם במקביל להבין כיצד לייצג סוגים שונים של מידע מבלי לסבך יתר על המידה את דפי התוצאות. סוגיה זו מעמידה דילמה קשה בפני גוגל במיוחד, שכבר זמן ארוך עומדת בפני הפיתוי לבצע שינויים משמעותיים בפורמט הבדוק והמצליח שלה להצגת תוצאות חיפוש. "גוגל עומדת בפני אתגר אמיתי", אומר כריס שרמן, עורך אתר האינטרנט Search Engine Land. "האנשים בגוגל רוצים לשפר את חוויית השימוש, אבל הם חייבים להיות סופר-זהירים בנושא של הכנסת שינויים, מחשש לגרום לניכור בקרב המשתמשים".

מעבר לעולם החיפוש הצרכני, טכנולוגיות Deep Web עשויות בסופו של דבר לאפשר לחברות לעשות שימוש במידע בדרכים חדשות לחלוטין. לדוגמא, אתר בנושא בריאות יכול להצליב מידע מחברות תרופות עם מידע המצוי במחקרים רפואיים עדכניים, ואילו אתר חדשות למשל, יכול להרחיב את הכיסוי שלו על ידי שיאפשר למשתמשים להיכנס לרשומות פומביות המאוחסנות בבסיסי הנתונים הממשלתיים.

דרגה כזו של אינטגרציית נתונים עשויה בסופו של דבר לסלול את הדרך לכיוון משהו הדומה לרשת הסמנטית (The Semantic Web), החזון המפורסם והמהולל (אם כי עדיין לא ממומש), של רשת מקושרת לחלוטין של מידע ברור ונגיש. טכנולוגיות Deep Web מגלמות את האפשרות להשיג את אותם יעדים ויתרונות, אך בעלות נמוכה הרבה יותר, זאת על ידי אוטומציה של תהליך הניתוח של מסדי נתונים, והצלבה של התוצאות עם מקורות נוספים. "הדבר הגדול הוא היכולת לחבר מקורות מידע שונים לגמרי", אומר מייק ברגמן, מדען מחשבים ויועץ שהיה ככל הנראה האדם שהמציא את המונח Deep Web. לטענת ברגמן, השפעתו ארוכת הטווח של חיפוש Deep Web קשורה הרבה יותר לשינוי העולם העסקי מאשר לסיפוק הגחמות של גולשי האינטרנט.



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר TheMarker

סדר את התגובות

כתבות ראשיות באתר

כתבות שאולי פיספסתם

*#