WWW 2012 – סיכום ורשמים

בברזל צריך להכות בעודו חם. אין לי ניסיון מעשי בהכאה בברזל חם (או קר) אבל, קונפורמיסט שכמוני, נאמנים עלי דברי הפתגם. כנראה שזה נכון גם לסיכומי כנסים – הנה, את סיכום WSDM 2012 שהתקיים בפברואר חילקתי לשני חלקים, הראשון פורסם וממתין בסבלנות לחלק השני שעדיין לא נכתב וכנראה גם לא יכתב, למרות שהיה מעניין יותר מהראשון (שהיה מעניין בפני עצמו). WWW 2012 התקיים לפני שבועיים שלושה שבועות בליון אשר בצרפת ("אני לא אזרח צרפתי ולא מצביע בבחירות" אילתרתי בצרפתית עלובה אל מול כל פעילי הבחירות שהסתערו עלי).  בקיצור, חדל אקפוזיציות ויאללה לעייסק – קצת על הכנס וסקירה מקוצרת של מאמרים שאהבתי (כרגיל, הפרטים הטכניים נשארו במאמר, כאן אני מסביר מה עורר בי עניין. זה כמובן עניין של טעם אישי ורק מתוך כ-15 הרצאות שיצא לי לשמוע).

רשמים כלליים

הכנס היה ענקי. כ-1900 משתתפים רשומים הגיעו וכנראה עוד כמה מאות שהגיעו לכמה כנסי טכנולוגיה אחרים שהיו במקביל ועם מין סוג של סינדיקציה. קשה לומר שהייתה שם תחושה של אינטימיות. באולם הכניסה הענקי הייתה תצוגה של פוסטרים של הכנס והמון דוכני דמו של חברות שונות ומשונות – החל מגוגל ומייקרוסופט המתבקשים, דרך סוני ו-HP וכלה בכל מיני חברות צרפתיות עלומות. מצד שני, היו שם לא מעט פרצופים מוכרים, מ-Yahoo! Research בארץ (שסחתיין עליהם שהכניסו 5 מתוך מאה המאמרים שהתקבלו לכנס), ועוד חברים ומכרים מכנסים קודמים. זה די משמח ונחמד להגיע לכנס ולהרגיש שאתה חלק מקהילה.

היום הראשון: הכנס נפתח בהרצאה מיוחדת של טים ברנרס לי. סר. והאבא של האינטרנט (משמורת משותפת עם אל גור). איחרתי מעט להרצאה, אבל לא נראה שהפסדתי יותר מדי. ההרצאה עסקה באינטרנט, פרטיות, חופש המידע ודמוקרטיה ולא חידשה דבר למי שקצת מתעניין בנושאים האלו. אחד הרעיונות עליהם הוא דיבר היה למתוח קצת את הגבולות של הרשתות החברתיות כדי לא ליצור גטאות של אנשים דומים מדי במקום ליצור גשרים בין אנשים שונים. הנושא הזה מטריד אותי לא מעט (עקרונית ואלגוריתמית) ואני שמח שהוא נכנס לסדר היום, אם כי מהדלת האחורית ותמיד תוך תחושה חתרנית.  [וידאו רישמי של 15 הדקות האחרונות של ההרצאה. למה רק 15 דקות אחרונות? נו, צרפתים. לפחות הכל התנהל לפי כללי הטקס ולא קרס שום יציע, כמו במדינות מזרח תיכוניות מסויימות].

בהמשך היום שהתחיל מאוחר ונגמר מוקדם נכחתי בעוד שתי הרצאות (וחצי). בראשונה הציג אורן סומך מ-Yahoo!Labs בחיפה את המאמר Build Your Own Music Recommender by Modeling Internet Radio Stream (נכתב עם נטלי אייזנברג ויהודה קורן מזוכי המיליון של נטפליקס). אהבתי את המאמר כי אני אוהב מוזיקה ומערכות המלצה ביחד ולחוד ובעיקר כי גם הוא מנסה להתמודד עם הבעייתיות במערכות ההמלצה שמבוססות על קולבורטיב פילטרינג (collaborative filtering, להלן CF). הרעיון בבסיס האלגוריתם הוא חזרה לתלות בסמכות, כלומר שדרי הרדיו. כלומר במקום להשתמש ברשת החברים כדי לייצר המלצות מוזיקליות משמימות אפשר לנסות לזקק את ההמלצות לפי תחנות הרדיו (בסטרימינג) אליהן אני מנוי ומערכת ההמלצה תלמד את הטעם של השל קבוצה קטנה יחסית של שדרים (שכבר עשו את בחירת העריכה המושכלת והמקצועית שלהם).  ההנחה היא ששדרים מקצועיים הם מעודכנים יותר ומגוונים יותר מאשר צרכן המוזיקה הממצוע ולכן מצד  אחד יש משקל גדול יותר לבחירות שלהם ומצד שני – הסיכוי להיתקע בגטו מוזיקלי נמוך משמעותית (תודה לבועז כהן ולירון תאני שנדם בטוויטר). השימוש במספר קטן של סטרימים (והאופי של תחנות רדיו אינטרנטיות) מצריך פיתוח אלגוריתם חדש שמתאים לסוג הדטא הזה (מבחינת האופי של הדטא והסיגנל הסטטיסטי שלו, לא מבחינת האודיו-סטרים עצמו).  במאמר מתוארת גם בדיקה מעמיקה של האלגוריתם, אבל מה שחסר לי זו בדיקה מול יוזרים אמיתיים – האם חווית ההאזנה משתפרת או שאולי המאזין הממוצע מעדיף את הגטו הקטן של המוזיקה הממוצעת שלו (אין כאן שום שיפוטיות, כמובן). לא ברור לי איך לבצע בדיקה כזו אבל זו הבדיקה האמיתית. טריוויה: המאמר היה אחד המועמדים לפרס המאמר המצטיין.

Estimating the Prevalence of Deception in Online Review Communities המאמר מנסה לזהות ביקורות "מזוייפות" (ומחמיאות) באתרי ביקורות. ספציפית, הדטא היה ביקורות מזוייפות על מלונות באיזור שיקגו. החברים מקורנל מציעים מודל גרפי לקלסיפיקציה של הביקורות לפי סטטיסטיקות מילים על הקורפוס. הם מדווחים על תוצאות מעניינות לפי פילוחים שונים (למשל, מספר הביקורות המזוייפות על מוטלים זולים גדול משמעותית מאלו על מלונות) ועוד. נקודה מעניינת במאמר היא השיטה בה הם בנו את המודל. מודל גנרטיבי שכזה הוא מודל לומד בתורה מונחית (supervised learning). ככזה, צריך להתחיל עם אוסף ביקורות עליהם אנחנו יודעים שהם מזוייפות. אבל איך נמצא אוסף גדול מספיק של ביקורות מזוייפות אם אין לנו דרך לזהות אותן ככאלו? השיטה המעניינת שננקטה היא לשלם לטורקים מכאניים שיכתבו ביקורות מזוייפות על מקומות שמעולם לא היו בהם. השיטה הזו זכתה להרמת גבות מסויימת אצל מי מהשומעים איתם דיברתי. יש כל מיני סוגים של זייפנים, הם טענו, והזיופים של הטורקים המכאניים הם סינתטיים במיוחד ולכן לא באמת משקפים את התופעה. הלמידה אם כן, מוטית. זו נקודה תאורטית מעניינת ואי אפשר להתעלם ממנה. ג’ף הנקוק, אחד מכותבי המאמר אמר לי שכך פועלים גם מזמיני הזיופים, הזייפנים כך שאמנם תמיד נישאר באי וודאות מסויימת אבל שלדעתו הגישה הזו לגיטימית, מדוייקת מספיק והשיטה היחידה שזמינה כרגע.  סוגיית התיקוף של מודלים מהסוג הזה זו בעיה שמטרידה אותי לא מעט והדיון האקדמי בה די מוגבל. מעט חבל שהדיון מעשה בשולי ההרצאה ולא, לטובת הדורות הבאים, בגוף המאמר. מנגד – בדיוק בשביל זה יש כנסים.

היום השני היה די מאכזב. בבוקר הייתה הרצאת אורח של כריס וולטי (Chris Welty) על ווטסון של IBM. שמעתי על זה כבר כמה פעמים בכמה כנסים ודיברתי ארוכות עם חלק מהחוקרים המעורבים אז ויתרתי, אבל סיפרו לי שזו הייתה הסקירה המדעית הטובה ביותר שהם שמעו. (לא מצאתי את ההרצאה מהכנס אבל הנה הרצאה שלו ממקום אחר, אני מניח שהן די דומות).

במקום לשמוע שוב על ווטסון (טעות, כאמור) נכנסתי לפאנל משמים על אינטרנט וזכויות אדם. הטפיחה העצמית על השכם המערבית שאיפשרה את האביב הערבי הנפלא מאין כמוהו, ירידות על SOPA ושות’ וכל הקישקושים השיטחיים הרגילים שמוצאים בדה מארקר.

אלט-טאב. נכנסתי לעוד חמש-שש הרצאות מעניינות חלקית והצגתי את המחקר שלי.  לקינוח, בשיטוט לילי בסימטאות ליון מצאתי מועדון ג’ז אפריקאי נפלא. לפחות משהו אחד טוב יצא מהיום הזה.

היום השלישי היה היום המעניין ביותר. היום נפתח בהרצאת אורח של הפילוסוף ברנרד סטיגלר שדיבר על חברה דיגיטלית ועל האינטרנט (טכנולוגיה) משנה את החברה ולהפך. (דיבר – כלומר הקריא. לעולם לא אתגבר על המנהג הזה במדעי הרוח לעמוד שעה וחצי ולהקריא מדף. בא לי לצעוק לו Yo dude! פשוט תשלח לי את הטקסט באימייל). חלק ניכר מההרצאה עסק בקולקטיביות שנוצרת ברשת ובסכנות שלה (הנושא כבר עובר כחוט השני מההרצאה של טים ברנרס לי, דרך המאמר על גיוון במערכות המלצה לעיל וכאן). ההרצאה זמינה כולה כאן (וידאו), והטקסט של ההרצאה  Die Aufklärung in the Age of Philosophical Engineering. (זו לא באמת הרצאה של פילוסוף אם אין מילה גרמנית. נדמה לי שכאן הכוונה ל’עידן הנאורות’ החדש, כלומר זה של החיים הדיגיטליים).

Actions Speak as Loud as Words: Predicting Relationships from Social Behavior Data – מאוד אהבתי את המאמר הזה שמשלב עיבוד שפה, ניתוח התנהגות חברתית ברשתות (וגם מעמת ומשווה בינהם). זה בדיוק סוג העבודות שאני אוהב שמשלבות תחומים שונים, ומקשרות העיה חישובית לתאוריות ממדעי החברה.

אחר כך הרצה כריסטיאן בעל שמונה שמות המשפחה.  כהמשך מצויין להרצאה הקודמת כריסטיאן הציג את Echoes of Power: Language Effects and Power Differences in Social Interaction. גם כאן הוצג מודל שפה נאה לתיאור יחסים בין דוברים. אני חייב להשחיל כאן מילה אישית – חוץ מזה שהוא באמת בחור נחמד, אני מת על כל העבודות של כריסטיאן עד כדי קינאה. עשו לעצמכם טובה ותציצו ברשימת הפרסומים שלו. כולם מעניינים ויש שם עוד כמה שמשלימים את המאמר הזה (אחד מהם יוצג ב-ACL הקרוב).

דפנה שחף (פחות ישראלית ממה שהשם מרמז) הציגה את Trains of Thought: Generating Information Maps, הרחבה למאמר שלה שהוכתר כמאמר הטוב ביותר ב-KDD 2011. למען האמת ההרצאה לא חידשה לי הרבה כי דפנה הציגה את מרבית העבודה בקולוקוויאום המחלקתי בירושלים (היא מ-CMU) – ועדיין ההרצאה הייתה מעניינת מאוד – שילוב מצויין של בעיה מעניינת, מודל מתמטי לא טרוויאלי (איך לבחור את פומקציית המטרה הנכונה) והצגה גרפית מופלאה ואינטואיטיבית. (וידאו של הרצאה ארוכה [ג’וב טוק?] שניתנה במיקרוסופט ריסרצ’).

קירה רדינסקי מהטכניון הציגה את Learning Causality for News Events Prediction. זו מערכת מרשימה כמעט ברמה ווטסונית (ע"ע) שמנסה לצפות את העתיד בהינתן אירוע חדשותי. למשל, תקיפה באיראן -> עליית מחירי הנפט. ייחודה של העבודה הזו הוא בהגדרה נכונה של אירועים וקשרים בינהם ובשילוב העדין של הרבה תתי מודולים לכדי מערכת ניבוי מעניינת. זה נשמע טריוויאלי (רק חבר פלט של מודול אחד כאינפוט של השני) אבל זה צורך הבנה מעמיקה של האלגוריתמים השונים וטיפול ברעשים ובהטיות הייחודיות לכל אלגוריתם.  הייתי שמח לראות את זה נבחן בקנה מידה גדול יותר.

הכותרת המשעשעת של ההרצאה האחרונה ששמעתי הייתה Your Two Weeks of Fame and your Grandmother’s. "לאחרונה מדברים הרבה על הפרעות הקשב של עידן האינטרט," פתח המרצה, דוקטורנט בברקלי שביצע את המחקר כמתמחה בגוגל. אמר, ועבר להתעסק לכמה שניות בלפטופ. "מצטער, הייתי חייב לבדוק אימייל" הוא מתח את הגימיק. המאמר, בכל אופן מדבר על ההבדלים בין חמש עשרה שניות התהילה להם זוכים אנשים בימיינו, לעומת חמש עשרה שניות התהילה להם זכו אנשים לפני מאה שנה, לפני ריבוי הערוצים, הרשתות וכלכלת הצומי. המסקנה היא שבניגוד לאינטואיציה – בימינו חמש עשרה שניות התהילה ארוכות יותר (15 כמספר טיפולוגי, כן? אל תעירו לי על לוגיקה). מלבד התוצאות המפתיעות, בעיניי חשיבות המחקר היא בכלים שפותחו כדי לעבוד נכון עם ארכיב החדשות הישנות של גוגל ואיך להתגבר על הטיות סטטיסטיות שנובעות מדיגיטיזציה חלקית וחסרה של ארכיבי חדשות ישנים – תובנות רלוונטיות מאוד להרבה חוקרים אחרים (וגם לי).

בשורה התחתונה – 7.5 בסולם אורן (שהוגדר בכנס כנס תרדוף) – היה כנס נחמד אם גם מעט מאכזב. היו כמה וכמה הרצאות מעניינות אבל ללא אף הרצאת WOW, מעט קשרים חדשים שיטחיים עם קצת פוטנציאל לשיתופי פעולה מעניינים בעתיד.


והנה סיכום הכנס מזוית גוגלוצנטרית (בבלוג של גוגל ריסרץ’).