חלון חדש להיסטוריה האנושית, ב-500 מיליארד מילים - דיגיטל - TheMarker
תיק מניות

רשימת קריאה

רשימת הקריאה מאפשרת לך לשמור כתבות ולקרוא אותן במועד מאוחר יותר באתר,במובייל או באפליקציה.

לחיצה על כפתור "שמור", בתחילת הכתבה תוסיף את הכתבה לרשימת הקריאה שלך.
לחיצה על "הסר" תסיר את הכתבה מרשימת הקריאה.

לרשימת הקריאה המלאה לחצו כאן

חלון חדש להיסטוריה האנושית, ב-500 מיליארד מילים

גוגל השיקה שירות חדש, המאפשר חיפוש קטעים סמנטיים במסד נתונים הכולל מילים ומשפטים מ-5.2 מיליון ספרים

תגובות

בלי הרבה רעש וצלצולים, גוגל הפכה מסד נתונים ענקי, המכיל מילים וקטעי משפטים שונים שנאספו מתוך 5.2 מיליון ספרים דיגיטליים, לזמין לציבור כולו ובחינם. בנתוני המאגר ניתן לערוך חיפוש מקוון הפותח אופק חדש לעוסקים במחקר בתחומי חינוך ומדעי הרוח. מסד הנתונים גם מכיל נתונים שונים אודות הקטעים הסמנטיים, כמו שכיחותם לאורך השנים. זהו השירות הראשון, בסדר בגודל כזה ובעל כלי חיפוש כאלה, שנמצא בהישג ידם של דוקטורנטים, תלמידי חטיבת ביניים, וכל אחד אחר המוכן לבלות מזמנו מול מסך מחשב. מסד הנתונים כולל את 500 מיליארד המילים שהופיעו בספרים שפורסמו בין שנת 1500 לשנת 2008 באנגלית, צרפתית, ספרדית, גרמנית, סינית ורוסית.

הקהל המיועד הוא אקדמי, אבל כלי מקוון פשוט מאפשר לכל מי שיושב מול מחשב ליצור מחרוזת של עד 5 מילים ולראות גרף המתעד את השימוש המשפט לאורך זמן - הרגל שיכול להפוך במהירות לממכר כמעט כמו אנגרי בירדז. בהקשת עכבר, ניתן לראות שהמילה women, נשים, בהשוואה ל-men, גברים, כמעט ולא מוזכרת עד שנות ה-70' המוקדמות, כשהפמיניזם תפס מקום משמעותי בתרבות. הקווים נפגשים בסופו של דבר בסביבות 1968. אפשר גם ללמוד שמיקי מאוס ומרילין מונרו לא זוכים לאותה כמות תשומת לב בדפוס, כמו זו שלה זוכה ג'ימי קרטר; להשוות את ההתייחסויות הרבות באופן משמעותי לכיכר טיינאנמן באנגלית לעומת בסינית אחרי 1989; או לעקוב אחר עליית הפועל grilling החל משנות ה-1990 המאוחרות, עד שעבר את הפופולריות של הפעלים roasting ו-frying בעלי המשמעות הדומה.

"המטרה היא לתת לילד בן שמונה את הכלים ללמוד על טרנדים תרבותיים לאורך ההיסטוריה, כפי שהם משתקפים בספרים", אמר ארז ליברמן איידן, עמית זוטר ב-Society of Fellows בהרווארד. ליברמן איידן וז'אן-באפטיסט מישל, עמית פוסט-דוקטורנט בהרווארד, אספו את המידע יחד עם גוגל והיוו ראש החץ של פרוייקט מחקר, שמטרתו להדגים איך מסדי נתונים דיגיטליים עצומים יכולים לשנות את ההבנה שלנו של שפה, תרבות והזרימה של רעיונות. המחקר שלהם, שפורסם בכתב העת Science ביום שישי, מציע טעימה מפתה של הסעודה העשירה של הזדמנויות מחקר שנפתחו עכשיו בפני חוקרי ספרות, היסטוריה, ותחומים אחרים במדעי הרוח שנמנעו בעבר מניתוח כמותני. Science נוקט בצעד יוצא הדופן של הפיכת המחקר לזמין ברשת גם לגולשים שאינם ממנוייו.

"רצינו להראות מה הופך לאפשרי כשמיישמים ניתוח מידע מתקדם לגבי שאלות במדעי הרוח", אמר ליברמן איידן, שהתמחותו היא במתמטיקה יישומית וגנומיקה. הוא קרא לשיטה culturomics, תרבותומטריקה. מסד הנתונים ניתן להורדה, ומשתמשים יכולים לבנות כלי חיפוש משלהם. כשעבדו על מסד נתונים שכלל עברית והחל ב-1800, החוקרים מדדו את תוחלת התהילה, ומצאו כי התייחסויות כתובות לסלבריטאים התדלדלו בקצב מהיר יותר פי 2 באמצע המאה ה-20 לעומת תחילת המאה ה-19. "בעתיד כולם יהיו מפורסמים ל-7.5 דקות", הם כותבים.



עוד בנושא:

גוגל השיקה את חנות הספרים eBooks: מציעה יותר מ-15 מיליון ספרים
הבשורה מפי גוגל: נקסוס אס ואנדרואיד 2.3 הושקו אתמול
גוגל מחבקת עצים וירטואליים



תגובות

דלג על התגובות

בשליחת תגובה זו הנני מצהיר שאני מסכים/מסכימה עם תנאי השימוש של אתר הארץ

סדר את התגובות

כתבות ראשיות באתר

כתבות שאולי פיספסתם