דאטה – מי ההורים שלך? [1]

או – למי שייך הדאטה עלינו והאם ראוי שנרוויח ממנו?

בפברואר 2019, לפני כשנה, מושל קליפורניה Gavin Newsom קרא להחזרת השליטה למשתמשים על הדאטה שלהם. כצעד ראשון הודיע Newsom על כוונתו לקדם רפורמה שתחייב חברות, ובראשן גוגל ופייסבוק, לתגמל את המשתמשים בעבור סחר בדאטה שלהם עם צדדים שלישיים. ההצדקה למהלך הזה, לשיטתו, היא שאין סיבה שהחברות ישגשגו מבלי שהמשתמשים – הלא הם המקור לנתונים – יזכו לנתח מההון. כך עלה לו לקדמת הבמה המושג – 'Data Dividend' על פיו יופרש דיבידנד כספי לאדם מן הערך שנוצר משימוש במידע שלו או ממכירה שלו לצד ג'. המשמעות היא למשל שגלישה בפייסבוק שבמהלכה החברה אוספת על כולנו מידע אולי תהפוך למקור הכנסה. נשמע טוב?

Gavin Newsom מושל קליפורניה

כרקע למהלך הזה צריך לציין שכבר נעשה ניסיון דומה ב-2017 במדינת וושינגטון שלא התגבש לכדי חוק. ההצעה שם הייתה להטיל מס של 3.3 אחוז על מכירת דאטה. התומכים בהסדרים ברוח זו מתארים את המהלך כאמצעי להקטנת האי-שיוויון, מעין מעשה רובין הודי – לקחת קצת מהעשירים ולתת לעניים. עניינם הוא לשקם את היחסים הלא שוויוניים בין המשתמשים החלשים לבין חברות הענק  על ידי חיזוק כוח המיקוח של המשתמשים מול הארגונים. כפועל יוצא יוכלו המשתמשים לשלוט טוב יותר במידע האגור במערות השרתים של ענקיות האינטרנט.

במבט ראשון – זהו מהלך מעניין ואולי הגיוני, במיוחד בעידן בו המשתמש הפך להיות המוצר.

בפועל – זו סוגיה מורכבת המעלה תהיות מגוונות:

  1. מה המעמד של דאטה? למי הוא שייך ומי זכאי לשלשל לכיסו רווחים מסחר בו?
  2. סוגית הישימות – האם הפרשת דיבידנד מדאטה היא דבר ישים? האם היקף הרווחים הצפויים מצדיק מהלך סבוך שכזה?
  3. ולבסוף, מבחינה נורמטיבית-חברתית, האם נכון לחזק את מגמת הסחר-מכר בנתונים אישיים?

בפוסט הזה אגע רק בשאלה הראשונה. השאר ימתין בסבלנות לפוסט הבא.

הנפט החדש?! – אהם… האמנם?

יש הרואים את הדאטה כ"נפט החדש" ("The New Oil"). לנפט שני מצבי צבירה: בתוך האדמה, שם הוא לא שווה דבר; לאחר הפקתו מקרבי כדור הארץ לתוך חביות – אז הוא מתחיל לקבל ערך. כך גם דאטה אינו שווה דבר עד שיחולץ מן המשתמשים וייאגר בתוך בנק נתונים רחב. המתנגדים לגישה זו מדגישים את ההבדלים המהותיים בין השניים: חבית נפט היא מוצר פיזי טהור ואפשר לתאר אותה על ידי נוסחה כימית פשוטה. היא ניתנת לשכפול ומהווה משאב פיזי עם שייכות גיאוגרפית ובעלות מוגדרת. הדאטה לעומת זאת הוא אמורפי ונזיל, לא-פיזי – ועוד לא מצאנו את הרכבו הכימי…

אין לי עניין להכריע במחלוקת סביב המשל הזה פה, אני מביא אותו רק כי הוא מדגיש את הצדדים השונים בשאלה לדיון – איך נכון להסתכל על הדבר הערטילאי הזה שנקרא 'דאטה'? למי הוא שייך, אם בכלל? ומי בעל הזכות לקבל עליו גמול?

בתמונה – משאבת דאטה, סליחה – נפט

נתוניו של אדם הם כגופו

אפשרות אחת היא לגרוס כי נתוניו של אדם הם כגופו. כשם שיש לאדם ידיים, גפיים, רצונות ושאיפות – כך גם יש לו מאפיינים, שעל אף הערטילאיות שלהם מהווים חלק ממנו. הדאטה אינו דבר חיצוני לאדם, המתלבש עליו, או מרחף מעליו – אלא פנימי ומרכיב בעצמותו. ברמה הפרקטית תפיסה כזו תצמצם מיניה וביה את הנכונות לאפשר לסחור במידע – שהרי סוחרים בקניין ולא בנשמות של בני אדם (חוץ מניקולאי גוגול – קריאה מומלצת). יתרה מכך, ייתכן שעל בסיס תפיסה כזו אף יוטלו מגבלות על יכולתו של אדם לסחור בדאטה, כמו שקשה לנו עם האפשרות שאדם יסחר באבריו. ועוד, על בסיס עיקרון שדאטה הוא כגופו של אדם, סביר להניח שנכון יותר יהיה לדבר על דאטה במושגים של פרטיות מאשר של קניין, סחירות והעברת זכויות.

ובחזרה למשל הנפט – על פי גישה זו הקשר בין נפט, משאב טבע סחיר, לבין דאטה הוא מקרי בהחלט וכמו שאמר מישהו – "Data is about as likely a digital twin of oil, as a toaster is a mechanical twin of a quantum computer"… הנפט הוא סחיר, אך הדאטה של אדם, שהוא למעשה גופו – לא! לפי הגישה הזו, דאטה דיבידנד הוא מושג מטעה ושגוי, ואפשר בגדול לסגור את הדיון.

אבל זו גישה מעט קיצונית – דאטה הוא באמת דבר בלתי סחיר לגמרי?! אדם לא יכול למכור דאטה שלו תמורת כסף? לכן אפשר להציע אולי איזשהו ריכוך על ידי הבחנה בין סוגים שונים של דאטה. כיוון שיש סוגי מידע פנימיים-אינטימיים יותר ויש כאלו פחות, הסחירות של המידע יכולה להשתנות בהתאם.

את הדאטה אפשר לסדר אולי על 'ספקטרום של קרבה': בצד אחד (נגיד מימין) יש את המידע הרפואי על אדם או נטייתו המינית – נתונים רגישים ו'קרובים יותר' לאדם ולכן פחות סחירים. ככל שנזרום שמאלה בציר נפגוש נתונים כגון גובה וגיל, סכום העובר ושב שלו. בקיצון השמאלי יוצבו הנתונים האינטימיים פחות – סוגי המכוניות שברשותו, העדפות קולינריות וכדומה.

העובדה שיש דאטה שבו כן ראוי לסחור מובילה אותנו לשלב הבא.

תודה לפייסבוק שהביאני עד הלום

אז נניח שדאטה, לפחות בחלקו, הוא משאב סחיר ונמשיך עם ההבנה שמדגישה שנתונים מסוימים של אדם הם כמו נפט היושב בעומק המדבר העיראקי. עד שלא תבוא חברת ענק ותפיק את הנפט ממעמקי האדמה – הוא פשוט לא שווה כלום. באותה מידה, לדאטה על מישהו אין ערך כל עוד הוא לא נאסף, נבדק וצורף למיליון נתונים אחרים על ידי פלטפורמת אינטרנט גדולה. שיטה זו אינה מבטלת כמובן את האמורפיות והערטילאיות של הנתונים, מבחינה זו הם שונים מנפט, אבל עומדת בעיקר על היותם 'חבויים' עד כדי לא קיימים, עד אשר מגיע גוף מקצועי ומיומן המפיק את הדאטה ממחצביו. במובן הזה, כן!, דאטה הוא כמו נפט.

מה מסתבר? שאנחנו חייבים את פייסבוק כדי לעשות משהו מהדאטה שלנו! כיוון כזה מעורר את הדיון סביב חלוקת הרווחים – איפה עובר הגבול בין מה שאני חייב לפייסבוק על ההפקה, לבין מה שהיא חייבת לי על המשאב? איך נחלק את ההכנסות?

נעצור כאן לעת עתה, כיוון שזו בדיוק נקודת הפתיחה המתאימה לפוסט הבא… זה הזמן להפעיל את הנוירונים ולנסות לחשוב על מנגנונים חכמים לחלוקת רווחים מדאטה.

נ.ב:

לצורך כתיבת הפוסט שמנו בצד את האפשרות הסבירה שמדובר במהלך פופוליסטי ותו לא, כי בכל מקרה השאלה העקרונית מעניינת בפני עצמה. ואכן יכולה להיות תחושה ששיח ה-Data Dividend נגוע בפופוליזם-מה כאילו רובין הוד של קליפורניה לוקח מהעשירים ונותן לעניים.

ולראיה, ראו (באדיבות גוגל) איזה באז נוצר סביב המושג בתקופה שלאחר הנאום של Newsom (בפברואר 19'), ואיזה שיממון לפני ואחרי… מחשיד קצת, לא?

רגע, לא הבנתי – פרק 2

למה בכל זאת חשוב שנבין מה קורה בתוך האלגוריתם

בפוסט הקודם דיברנו על פער ההבנה, הנקודה שבה אנחנו מבינים שהמודל מורכב מדי מכדי שנוכל להבין אותו. הקופסא שמקבלת קלט ומוציאה פלט הופכת לקופסא שחורה מבחינתנו. ראינו שהיכולת של המודל להיות גמיש מגדילה את היכולות שלו, וגורם לכך שהוא יתמודד עם משימות קשות בעולם האמיתי. הפעם נתמקד בקשיים ביישום מודלים מורכבים, ונסביר למה, למרות שאנחנו רוצים מודלים גמישי ואפקטיבים, עדיין צריך לגשר בין ההבנה האנושית לבין יכולות החיזוי של המכונה.

דבר ראשון, מהזווית הכי פרקטית בעולם, קשה לעבוד עם מודל מורכב. תהליך עבודה של מדען נתונים הוא לא מאוד שונה מתהליך עבודה של מהנדס תוכנה. כותבים משהו, זה בערך עובד, מנסים משהו אחר, עובד קצת יותר טוב. משנים משהו נוסף, ופתאום שום דבר לא מצליח. היכולת של מהנדס תוכנה לדבג (debug), לעבור שלב שלב אחרי ביצוע של הקוד שהוא כותב, היא קריטית.

כך לדוגמא, אפילו על טעות קטנה וטיפשית, אפשר לבזבז שעות על גבי שעות. דמיינו שקיבלתם משימה להכין מודל שינבא רמת הכנסה, ובין הפרמטרים נמצאים מספר הרשעות ושנות השכלה. אך אבוי, העתקתם את הקובץ באופן לא נכון, והשמות של המשתנים הוחלפו. במודל הפשוט, נוכל להבחין ישירות שבאופן תמוה רמת ההכנסה צפויה לעלות עם מספר ההרשעות. כמה נורות אדומות ידלקו, וכנראה שדי מהר נמצא את הגיבוי ששמרנו בצד, ונתקן את המודל. אבל במודל מורכב, הנורות ידלקו הרבה יותר מאוחר. המודל אמנם יציג תוצאות לא טובות כאשר נבחן אותו, אבל לא נוכל למצוא בקלות את הבעיה. לא נוכל לזהות באופן מיידי שיש בעיה עם משתנה מסוים, אלא נתחיל לגשש באפלה. בעיה זו תמשיך להתעצם ככל שיש יותר משתנים והמודל עצמו הוא מורכב יותר.

אפשר כמובן לא להתרשם, ולטעון שאולי זה קצת מעיק, אבל בהחלט לא הרסני – זו בעיה של המפתח, שיתמודד. כל זה נכון בסביבה סטרילית שבה המטרה של המודל פשוטה, כנראה שבסוף נגיע לפתרון של בעיות כמו שתיארתי. אבל כאשר המטרה לאו דווקא ברורה או כאשר הנתונים סבוכים וענקיים – סביר שבלי כלי דיבוג טובים, טעויות רעות בהחלט יוכלו להסתנן למודל.

דוגמא מפורסמת לכך היא הזיהוי השגוי והמעליב של אנשים שחורים על ידי גוגל. בשנת 2015 גילה מהנדס תוכנה בשם ג'קי אלסין, שתמונות שהוא העלה לGoogle Photos מסווגות אותו ואת חבר שלו כגורילות. אין ספק שגוגל רואה בכך תקלה חמורה מאוד, אך עד היום, גוגל לא הצליחה ל"דבג", ולפתור את הבעיה.

זיהוי של שחורים בתור גורילות

אבל כמובן שזה לא נגמר פה. גם אם נבטיח שכל הנתונים נכונים, המטרה מוגדרת היטב והמדדים הבסיסיים מראים על דיוק גבוה, עדיין מודלים מורכבים יכולים להיות בעייתיים ואפילו מסוכנים.

מקרה מעניין ומלמד היה הניסיון לזהות את החומרה של דלקת ריאות בעזרת רשתות נוירונים. הנתונים היו נהדרים, כמיליון חולים שאושפזו בעקבות דלקת ריאות, כ-1000 מדדים רפואיים ושאלת מחקר ברורה – "האם החולה שלפנינו אכן דורש אשפוז?". מצד אחד, אם יש סכנה להתפתחות של דלקת ריאות חמורה, כדאי מאוד לאשפז את החולה על מנת שיהיה בהשגחה צמודה. מצד שני אם אין סכנה אמיתית, ממש לא כדאי לסכן את החולה בזיהומים – הרי, לבית חולים אתה נכנס בריא ויוצא חולה – וגם אין רצון להקשות על החולה ועל משפחתו ולבזבז כסף לבית החולים.

מדדי הדיוק הניבו תוצאות יפות מאוד, והמודל היה צריך להיות מיושם בבית חולים. במקביל צוות חוקרים אחר ניסה לנתח את התופעה על ידי אלגוריתם אחר ופשוט, המתבסס על מציאת כללים סטטיסטיים בין הפיצ'רים. להפתעתם הרבה, היה כלל אחד מוזר מאוד שבלט: יש אסטמה > סכנה נמוכה להחמרה בדלקת ריאות.

רגע, מה קורה פה? איך זה יכול להיות? זה לא אמור להיות הפוך? אז כן בערך. התברר שכאשר מגיע חולה אסטמה עם דלקת ריאות, יש פרוטוקול מסודר, הרופאים יודעים בדיוק מה לעשות ועושים את זה. זה כמובן לא אומר שהסכנה נמוכה באופן כללי, אלא שכאשר נלקחים לחשבון כל הפרטים, יודעים לטפל בה. ולכן ניתוח נאיבי של הנתונים לימד באופן שגוי כי לחולה אסטמה יש סכנה נמוכה להחמרה בדלקת ריאות.    

עכשיו תארו לעצמכם שמודל רשתות הנוירונים היה מיושם. סביר מאוד להניח שאותו הקשר הסטטיסטי בין אסטמה לסיכון נמוך ימצא. ההבדל העיקרי יהיה שלא יהיה אפשר לזהות אותו, כי הוא יבלע במורכבות של המודל. חולי אסטמה שיבואו עם דלקת ריאות יבחנו, והאלגוריתם ככל הנראה יחליט שהסכנה נמוכה, הם יקבלו אנטיביוטיקה וישוחררו לביתם… זה לא טוב בכלל.

אז אולי הפתרון הוא שנגדיר חריגה במודל, ונחליט שלמי שיש אסטמה, למרות שהמודל מכריע שהוא בסיכון נמוך, נתייחס אליו בתור סיכון גבוה. גישה זו לא ריאלית, כי אם נחריג כל כלל סטטיסטי שנמצא, לא ישאר שום דבר מהמודל. ובכל מקרה, הסכנה הגדולה היא דווקא מדפוסים שנמצאים מתחת לפני השטח שהאלגוריתם הצליח לחשוף. כלומר, יחסית קל לחשוף ולהבין שיש בעיה בכלל של האסטמה, ואפילו מישהו ללא השכלה רפואית יכול להבין שאולי יש פה בעיה. אבל הדפוסים העמוקים שהאלגוריתם מוצא יכולים להיות מסוכנים בדיוק באותה מידה, ואותם לא נוכל לחשוף בכלל.

בפוסט שיתפרסם בהמשך בסדרה זו ניגע באתגר נוסף, שממשיך לעורר שיח וצובר תאוצה – אפלייה והטיה באלגוריתמים, ונתחיל לדבר על מה אפשר לעשות.

רגע, לא הבנתי – פרק 1

על פער ההבנה – הנקודה שבה אנחנו מבינים … שאנחנו לא מבינים

[קישור לפרק 2 בסדרה]

ילדים קטנים שואלים שאלות על כל דבר…  שאלות יומיומיות כמו "למה יתושים מזמזמים?" אבל גם שאלות תיאולוגיות עמוקות כמו "לאן הולכים אחרי שמתים?". זהו גיל שבו אנחנו צמאים לידע על איך העולם מתנהל. גם כאשר התדירות יורדת אנחנו ממשיכים בתהליך זה כל החיים. אנחנו צוברים מבנים ותרשימי זרימה דמיוניים על חוקים, סיבות ותוצאות.

שיטות החיזוי המסורתיות לא הלכו רחוק מאוד מזה. לבעיה נתונה, הוצג מודל פשוט שבו יש משתנים מסבירים (פיצ'רים, "סיבות") ומשתנה מוסבר (תוצאה). במשך מאות שנים המדע היה צריך להתמודד עם בעיות בעזרת ניסויים מבוקרים או שיטות סטטיטיות זהירות אחרות. המודל אמר כמה X משפיע על Y. כל זה היה בימים היפים והתמימים, אבל היום אנחנו חיים בעולם אחר לגמרי.

בעת האחרונה, מודלים חדשים ומתוחכמים הרבה יותר מביאים המון ברכה לאנושות, תחומים שבהם לא הצלחנו להגיע להישגים משמעותיים, כמו לדוגמא ראייה ממוחשבת, היום מוגדרים כ"פתורים" על ידי מדעני מחשב. אין הכוונה כמובן שנגמר מה לעשות בתחום, אבל ככל הנראה העבודה המחקרית מתחילה להראות תפוקה שולית פוחתת ביחס למהפכה הגדולה של שימוש ברשתות נוירונים בתחום זה. ראייה נוספת לכך היא שבמשימות מסוימות, כמו זיהוי פרצופים, כנראה שהמכונות כבר עקפו אותנו בסיבוב.

מודלים מודרניים כמו רשתות נוירונים (למידה עמוקה) מסוגלים לתפוס קשרים מסובכים ונסתרים מעיננו. הדרך בה הם עושים את זה היא לחפש קשרים בין הפיצ'רים ובין התגובה: האלגוריתם לא עוצר בחיפוש קשרים לינאריים כמו "אם נגדיל את ההשכלה בשנת לימוד, השכר יעלה ב2000 שקל", אלא ינסה למצוא קשרים מסובכים יותר כמו "אם נגדיל את ממוצע בגרות*גיל*גוון צבע עור*גובה אזי המשכורת תעלה ב1000 שקל" או "אם הגובה שלך הוא מעל 175 ס"מ וגם נולדת בתל אביב אבל לא היית במינוס בבנק בשנה האחרונה – אזי המשכורת שלך תעלה ב500 שקל". למעשה, אפילו הדוגמאות הללו הן הרבה הרבה יותר פשוטות מאשר הכללים שרשתות הנוירונים באמת לומדות.

כך למעשה, אנשים שעוסקים בלמידת מכונה למחייתם יכולים להעביר את חייהם המקצועיים בלבנות מערכות שאת תוצאותיה הם לא מבינים. אותו הילד הסקרן שגדל והתבגר, למד שיש מגבלות להבנה. נדגיש, האמירה ש"אנחנו לא יודעים מה רשתות ניורונים עושה" היא פשטנית למדי. אנחנו כן יודעים איך הרשת נבנת, אנחנו הרי כותבים קוד שבונה רשתות כאלו. אלא שיכולתו של המודל להיות גמיש ולהתאים את עצמו לדפוס מורכב, לא תמיד מאפשרת לנו לעקוב אחרי התוצאות שלו.

AMAZING Domino Rally Trick Screen Link! - YouTube
אלגוריתם מורכב הוא כמו דומינו ראלי ענק, אנחנו רואים שקורה משהו, אבל אנחנו מתקשים להסבירו. מקור: Youtube

נסו לחשוב על דומינו ראלי, משחק הילדים שבו בונים מסלול שבו כל אבן דומינו מפילה את האבן העוקבת. די נחמד לעקוב אחרי מסלול כזה שיוצר צורות מרהיבות. עכשיו חשבו על דומינו ראלי שמתחיל ב1000 מקומות, וכולל פיצולים, איחודים, מבויים סתומים, גשרים ומנהרות. כמו כן, הרשת שנוצרת ממסלולי הדומינו מתפרשת על שטח בגודל של מגרש כדורגל. האם תצליחו לעקוב? האם תבינו את המודל?

אותו פער הבנה הוא תוצאה בלתי נמנעת של חיכוך בין שני רצונות עקרוניים. מצד אחד, הרצון לספק תשובות טובות ככל האפשר לכל שאלה. ומהצד השני הרצון להבין את המנגנון הפנימי של הבעיה. נדמה, שלעיתים קרובות שני רצונות אלו מתנגשים בעוצמה.

אבל מה הבעיה בעצם? אם המערכת יכולה למצוא את כללי ההחלטה עבור בעיה נתונה, למה שנדאג? המערכת הרי תמצא לבד את הכלל האופיטימלי, ולא צריך להיות לנו אכפת מהו, העיקר שזה עובד, העיקר שזה אפקטיבי. אולי בעצם הצפייה להבין היא צפייה ילדותית? הרי זוהי תמימות לחשוב שבאמת קיימים בעולם האמיתי קשרים פשוטים כל כך שניתן להציג אותם בצורה כל כך ישירה. אף אחד לא באמת חושב שאם "אם נגדיל את ההשכלה בשנת לימוד, השכר יעלה ב2000 שקל". ברור שיש אינטרקציות בין כל הפרמטרים, ברור שהעולם מורכב, ואולי רק מודלים מורכבים יצליחו לתאר אותו? ואולי פשוט הגיע הזמן להתבגר ולהשלים עם פער ההבנה?

תם ולא נשלם.

בפוסט הבא ננסה לענות על שאלות אלו בעזרת מיקוד בצורך האנושי בהבנה, ומה אפשר לעשות כדי לגשר על הפער.

[קישור לפרק 2 בסדרה]

טכנולוגיה הלכה למעשה, והאדם שבתווך

קיומה של טכנולוגיה היא לא סוף פסוק. נדרש עוד לשכנע את בני האדם להשתמש בה. מסתבר שזה אתגר לא מבוטל… זכרו – טכנולוגיה מיישמים בני אדם!

[מומלץ, אך לא חובה, לקרא כרקע את הפוסט הקודם על COMPAS]

מי לא מכיר את התופעה הבאה? מגיע בוס חדש שמכריז על מהפכה טכנולוגית בארגון שתגדיל את שורת הרווח. כספים מושקעים, ימי עיון מתקיימים. אבל אחרי זמן מה מגלים שהשינוי כשל – העובדים לא הפנימו את השינוי בהרגלים, הטכנולוגיה (מדהימה ככל שתהיה) לא התאימה לתרבות הארגונית.

מדובר במה שאפשר לכנות "התווך האנושי/חברתי" – האינטראקציות והדינאמיקות האנושיות במערכת המסוגלות לחסום מהפכות. המאמר של Angèle Christin ("Algorithm in Practice") המוצג כאן בכמה מאות מילים עוסק בדיוק בזה – אסטרטגיות התמודדות של עובדים מול טכנולוגיות חדשניות.

יש את הכלים, ויש את מי שמפעיל אותם

טענתה הבסיסית היא שהשיח והמחקר מרבים לעסוק בכלים עצמם – החל מהאופן בו האלגוריתם פועל וכלה במחלוקות בסוגיות של הוגנות וכדומה – ולרוב לא חוקרים שאלות קריטיות כגון – כיצד אנשים מיישמים בפועל את מסקנות האלגוריתמים? האם הטכנולוגיה היא מבחינתם חבר או אויב? האם הם מקשיבים לפלט של התוכנה? ואיזו השפעה יש להקשר (כגון התרבות הארגונית או ההרכב האנושי בארגון) על אופן השימוש?

אני חייב להודות שאני מוצא את הכיוון המחקרי הזה כמאוד משכנע. קחו למשל את COMPAS – האלגוריתם שאמור לנבא את הסיכוי שאדם יחזור לפשוע. הרבה דיו נשפך במחלוקת סביב ההוגנות של הכלי – התגלה למשל שהוא מפלה לרעה אפרו-אמריקאים… אבל מעטים מאוד דנו ברובד אליו מנסה Christin להסיט את הדיון – קרי: הכיצד, אם בכלל, שופטים משתמשים באלגוריתם? זו שאלה קריטית אם רוצים להבין את השפעות הטכנולוגיה הלכה למעשה! Christin מבקשת לחקור לא רק את הכלים אלא גם את החיים עצמם מתוך הבנה שהחיים – התגובות האנושיות, התווך האנושי – יכולים לקבוע את השפעת הטכנולוגיה לא פחות מאשר הצד הטכני, תפקוד תקין או היעדר באגים.

המאמר משווה בין שני תחומים בהם השימוש באלגוריתמים גבר ב-10+ שנים האחרונות: העיתונות ובתי משפט פליליים. לשם כך ביצעה Christin מחקר אתנוגרפי אכותני המבוסס על ראיונות עם עשרות עובדים במערכות עיתון שבהן נעשה שימוש בתוכנות זמן אמת כגון Chartbeat המפיקה המלצות על תזמון פרסום כתבות לפי התנהגות הגולשים (כמות לייקים ותגובות, זמני קריאה, וכדו'). במערכת המשפט היא מתמקדת, איך לא, באלגוריתמים כמו COMPAS המנבאים מסוכנות של חשודים/עבריינים במסגרת הליכים שיפוטיים.

הממצא המעניין הוא כי בשני התחומים קיימים אי התאמה ופערים מהותיים בין הצהרות של מנהלים לגבי השימוש באלגוריתמים לבין האופן בו העובדים משתמשים בהם בפועל. זה קצת מזכיר לי אגב את הדינאמיקה שבין קצינים ונגדים בצבא – הקצין מצווה, אבל הנגד הוא זה שמחליט, בתכל'ס, אם/איך ליישם את ההחלטה. (וקצין שלא מבין את זה, נמצא בבעיה)

עזוב'תי מהאלגוריתם שך'!!

המאמר מביא בהרחבה את הדוגמה של מערכת עיתון המכונה TheNotebook (שם בדוי). יש שם מנהל ניו-יורקי המדבר על כמה שקבלת ההחלטות בארגון היא מתקדמת; ויש שם עובדת שלה משלמים כדי שתנתח את התעבורה באתר העיתון ותתווה אסטרטגיה שתעצים אותה; כל העובדים קיבלו גישה ל-Chartbeat; ואפילו דאגו לפרגן במייל לעובדים שהביאו הכי הרבה טראפיק. אבל כש-Christin תשאלה את הכתבים עצמם היא נתקלה בתגובות שונות שלא תואמות את הצעדים הללו: לא מעט מתוכם העידו כי הם לא מבינים מה רוצים מהם, זה לא מעניין אותם, העיסוק בטראפיק מלחיץ אותם וההתעמקות בסטטיסטיקות לא מצדיקה מבחינתם את השקעת הזמן וכאב הראש.

תמונת מסך של Chartbeat, מתוך אתר החברה

ממצאים דומים היא מצאה גם בבתי משפט בארה"ב, ואפילו באלו שנחשבים הכי Cutting-Edge וחדשניים (יחסית) שיש. שם מעידים שופטים ועורכי דין עד כמה קשה להם להיפטר מן הדפים המודפסים וכי השימוש בכלים הסטטיסטיים פשוט לא יכול להשתלב בתוך שיטות העבודה. אחד השופטים הולך רחוק יותר, באמירה מרתקת לדעתי: הוא אומר שהכלים האלו פשוט אינם מתאימים לרעיון הצדק! במערכת הצדק, אותו מקרה, עם אותו שופט, אותם עורכי דין, אותן ראיות יכולים להוליד החלטות סותרות בהזדמנויות שונות. זה לא קשור להטיות, אלא זה טבע התחום. שילוב כלים סטטיסטיים לתוך המערכת הוא דבר לא רלוונטי!

המדריך לעובד עם טכנולוגיה

מוגש לכם בזאת תפריט אסטרטגיות התמודדות שמפתחים עובדים במטרה להקטין את ההשפעה (impact) של האלגוריתמים: אפשר לבקר גלויות את הטכנולוגיה, לגרור רגליים או להתעלם במכוון. אם אתם תחמנים יותר אפשר גם לעשות "gaming" – קרי, לשחק עם הנתונים כדי לשפר ביצועים מבלי באמת לשנות שום דבר: לדוגמה, לשכנע את העורך להציב כתבה שלכם במקום בולט בשעות שיא – כך הסטטיסטיקה של הכתבה עולה מבלי שזה באמת ישפיע על המספרים הכלליים של האתר. אם אתם נועזים יותר, אפשר אפילו לעשות מניפולציה של נתונים בתיקי הראיות כדי שהנתונים יובילו להחמרה עם הנאשמים (Christin טוענת שמצאה סימנים לזה).

יש עוד המון במאמר הזה: הוא פותח הרבה מאוד כיווני חשיבה מרתקים שאפשר לפתח לגבי הצדדים הסוציולוגיים-אנתרופולוגיים של השימוש בטכנולוגיה. הדבר המרכזי שלמדתי מהמאמר הוא החשיבות של התווך האנושי: טכנולוגיה קיימת זה אחלה; אבל אופן ואסטרטגית השימוש הם לא פחות חשובים. כדי שכלי ייושם כראוי, צריך הסברה וצריך הכשרה, צריך גם כוח פוליטי ומנהיגות – צריך לוודא שהשימוש בפועל, הלכה למעשה, הוא נכון.

נראה לי שהרבה מדי מהשיח הנוכחי מנותק מההיבט היישומי הזה. מרבים לעסוק בטכנולוגיה עצמה, בסוגיות אתיות/משפטיות/חברתיות שהיא מעלה, בפיתוח הבא, בחידוש הבא. הדיונים הללו מייצרים אשליה שאם רק נפתח את הטכנולוגיה, אם רק יהיה מוצר מתוקתק – העולם ישתנה (לטוב או לרע).

אבל מסתבר שזה לא מספיק. אחרי הפיתוח בא השימוש. ובשימוש יש בני אדם. ולבני אדם יש אג'נדות, כוונות, רצונות. שוו בדמיונכם מציאות שבה פותח אמצעי ניבוי עבריינות מושלם, הוגן deluxe. האם זה מבטיח ששופט ישתמש בו כראוי? אם למשל הוא יהיה 'הוגן מדי' כלפי אפרו-אמריקאים, והשופט זוכר מניסיונו ארוך השנים שרוב העבריינים שהוא מכיר הם אפרו-אמריקאים, האם אין סכנה שהוא פשוט יתעלם מהאלגוריתם המושלם?

אז זכרו 'טכנולוגיה מיישמים בני אדם'. אם לא נשכיל לחקור את התנהגות בני האדם מול הטכנולוגיה, אם לא נחקור את התגובות האנושיות – לא נוכל להבין, וגם לא לצפות, את ההשפעה של הטכנולוגיה כראוי.

כי מסתבר שמה שמאה מפתחים פיתחו, עובד סרבן אחד יכול לבטל.

שורותקוד של תקווה

"אמור לי מי אתה ואומר לך אם תפשע", שורות קוד שמנבאות סיכויי חזרה לפשיעה.

בשנים האחרונות ממשיכה לגבור השפעת פיתוחים טכנולוגיים על המשפט, מגמה מרתקת שלה מורכבויות רבות. השימוש באלגוריתמים לניבוי עבריינות הוא מבין הסוגיות אשר יצרו את ההדים המשמעותיים ביותר. בשורות הבאות ניגע באלגוריתם COMPAS, חלקכם בטח שמעתם עליו. סביב הכלי הזה נוצר רעש לא מבוטל – דיונים משפטיים ואתיים למכביר ושאלות מעוררות מחשבה.

COMPAS – קווים לדמותו

האמריקאים מתמחים כידוע בהמצאת ראשי תיבות, וגם הפעם הם לא מאכזבים. COMPAS הוא לא אחר מאשר: Correctional Offender Management Profiling for Alternative Sanctions. האלגוריתם פותח על ידי החברה Equivant (לשעבר – Northpoint) והוא משמש את מערכות המשפט והאכיפה ברחבי ארצות הברית לשם הערכת הסיכויים שאדם שפשע יחזור לפשוע בעתיד (בשפה המקצועית – יהיה 'רצידיביסט').

תמשיך כל הזמן בכיוון הזה... עד בית הכלא הקרוב..
תמשיך כל הזמן בכיוון הזה… עד בית הכלא הקרוב
האלגוריתם מעריך את הסיכויים שאדם שפשע יפשע שוב בעתיד

אין כמו פסק דין עסיסי כדי להדגים את השימוש באלגוריתם. ב-2013 הואשם Eric Loomis בירי מרכב נוסע. לומיס מצדו הכחיש שהשתתף בירי וכפר ברוב כתב האישום. בתהליך שהפך כבר רגיל, נדרש לומיס למלא שאלון שהוא אחד הכלים בהם עושה COMPAS שימוש. בשאלון – 137 שאלות (!) הנוגעות בצדדים מגוונים מאוד של ההיסטוריה הנאשם: מקום מגוריו, חברותו ב-gang, יחסו לחוקים ולמערכת המשפט, ועוד (הנה סריקה של השאלון – שווה עיון).

עכשיו הגיע תורו של COMPAS לתת את דברו. בהתחשב בשאלון, בהיסטוריה הפלילית המתועדת לגבי הנאשם, ובעוד קריטריונים וכללים רבים וסודיים שהטמיעו בו אנשי Equivant הוא נתן את מסקנתו לגבי הסיכון הנשקף מלומיס. הפלט של COMPAS הוגש לשופטי ההרכב. למגינת לבו של לומיס החליטו השופטים, בין השאר על סמך אותו פלט, לגזור עליו עונש של 6 שנות מאסר ו-5 שנים בליווי קצין מבחן.

אבל לומיס לא אמר נואש. הוא ערער בפני בית המשפט העליון של וויסקונסין, ובהמשך בפני בית המשפט הפדראלי, נגד השימוש באלגוריתם. אבל לחלק הזה נחזור רק בסוף… (למעוניינים בהבנה מעמיקה של האלגוריתם, מעבר להצגה שנתתי כאן – בבקשה)

חמש השאלות(מתוך 137) האחרונות בשאלון… מעניין אם לנאשם יש עוד רצון לחיות בשלב זה…

התפיסה שבבסיס COMPAS והביקורת עליה

ניבוי התנהגות עתידית של בני אדם תמיד היה עסק מסובך. ההחלטה השיפוטית מתקבלת בתנאי חוסר ודאות, היכרות מוגבלת עם הנאשם, ומעורבות בה הטיות (יוריסטיקות) רבות. "אין לו לדיין אלא מה שעיניו רואות" – פשוטו כמשמעו, ובמלוא מובן המשפט.

בא COMPAS ואומר: "תנו לי כמה שיותר מידע היסטורי על עבריינים, אירועים, מקרים ופסקי דין מהעבר; הבו לי שאלון ממנו אלמד עוד על הנאשם על עצמו ואת ההיסטוריה הפלילית שלו – ואני, בעזרת עיבוד, ניתוח והערכה, אוציא פלט שיסייע למזער את ההטיות ולגשר על פערי הידע האינהרנטיים להליך הפלילי. ועוד, על הדרך, אני אייעל את ההליך ואקל על העומס העצום הקיים בבתי משפט."

אך כמובן שהדברים אינם כה פשוטים. מוגשת כאן רשימה חלקית מאוד של דברי הביקורת אשר ניתן להטיח ב-COMPAS:

  • חוסר שקיפות. Equivant עומדת בתוקף על שמירת הסודיות של 'הקופסה השחורה' של האלגוריתם ואינה רוצה לחשוף (בהנחה והיא בעצמה יודעת מה קורה שם בפנים..) מה קורה שם בפנים. זה אולי נהוג בשוק הפרטי אך בעייתי בראי הזכות להליך הוגן ויכולת הציבור לבקר את קבלת ההחלטות של האלגוריתם. המחקר הזה עמד על כך וטען כי ProPublica (חברינו מסעיף 1) הגיעו למסקנות שגויות כיוון שהניחו הנחות שגויות לגבי תפקודו של COMPAS (היא בתורה יכולה להאשים את Equivant שלא מסכימה לגלות סודות…).
  • הישענות על גורמים פרטיים. האם ראוי להפריט מרכיבים בהליך הפלילי? האם לא נכון יותר שההליך ינוהל על ידי הגוף הציבורי והרשמי הנקרא – "מדינה"? בארצות הברית זו כבר לא שאלה, שם יש בתי סוהר פרטיים לרוב – אז מה זה כבר אלגוריתם פרטי… אבל בהקשר הישראלי זו שאלה מעניינת. היא עלתה בעבר בבג"ץ הפרטת בתי הסוהר, שם נקבע שהעברת סמכויות שלטוניות לידי זכיין פרטי פוגעת בכבוד ובחירות. האם יש דמיון לסוגית COMPAS?

מה שמעניין באמת (בעיני) – ערעור על יסודות המשפט!

כל הנ"ל הוא ללא ספק מרתק ומהווה פתיח לתילי תילים של טענות, מחקרים ודילמות לגבי COMPAS אך בשלב הזה אני רוצה לעמוד על היבט מעט אחר של הסוגיה.

ראו, בהליך המשפטי, טרום-COMPAS ודומיו, משולבות כל מיני תפיסות אשר מעצימות את הסמליות של אולם בית המשפט, של השופט ושל ההליך הפלילי: כולם מכתתים רגליהם לבית המשפט, לאולם המכובד והמקודש של בית המשפט. המשפט, הכרעת הדין והגזר הדין הם רגעים מכוננים וסמליים: הנאשם X נותן דין וחשבון על חטאיו ומתוודה בפני השופט; כבוד השופט המלומד עושה שימוש בסמכות שהחוק עצמו מקנה לו בהסתמך על כושר שיפוטו ומכריע לגבי הנכון והלא-נכון, הראוי והשגוי, הטוב והרע.

פתאום בא COMPAS ומזכיר כי השופט הוא בן אדם עם הטיות ובעיקר שמאוד חבל לא להשתמש באינסוף הנתונים הקיימים כדי לחתור אל האמת. האלגוריתם מציע לנו לתקן את תחלואות ההליך בעזרת כלים חישוביים, נתונים וסטטיסטיקה. "תן לי מידע לגבי העבר וההיסטוריה ואני אסיק בוודאות די טובה מה צופן בעתיד". שופט, אל תצמצם את עצמך לנאשם הספציפי או למטען הידע המוגבל שבראשך – הנה לך מאגר נתונים עצום וא-פרסונאלי, מבוסס קריטריונים מוגדרים, שיכול לתת את ה'תשובה הנכונה'. ואיזו סיבה יכולה להיות לשופט לא לתת משקל משמעותי לדבר שכזה?

הנקודה שלי היא ש-COMPAS קצת 'מחלל' את קדושת המשפט – לטוב ולרע. אפשר להעמיד פנים שהאקשן ממשיך להתרחש בין השופט לבין הנאשם, באולם וברגעי הדיון. אבל מסתבר שחלקים משמעותיים ממנו עברו מיקור חוץ – נתח מכובד מתהליך השיפוט נטש את בית המשפט לטובת חלקיקי השניות שבהן האלגוריתם מחשב את הפלט שלו. וככל שפלט האלגוריתם יתפוס מקום משמעותי יותר בשיקול הדעת, כך נוטה ההליך להתבסס על סטטיסטיקה ולא על שיפוט ערכי.

השימוש באלגוריתמים איננו רק משנה או מייעל שיטות עבודה קיימות, האלגוריתם איננו רק כלי שמשפר את ההליכים הקיימים. אלא שהוא משפיע על תפיסות היסוד של בני האדם והחברה האנושית. הטכנולוגיה איננה נייטרלית. היא מוציאה 'ישן' מפני 'חדש'. הטכנולוגיה משנה תפיסות יסוד ומקדמת ערכים של יעילות ואפקטיביות על חשבון מוסדות מסורתיים.

שימו לב שלא אמרתי אם זה טוב או רע, כמו לכל דבר בחיים – יש לזה יתרונות וחסרונות…

אבל מה בדבר Loomis?

יש פה בכלל מישהו במתח…?

Loomis עתר לבימ"ש העליון של Wisconsin נגד השימוש באלגוריתם. לדבריו כיוון שנשמרת סודיות האלגוריתם, לנאשם אין ההזדמנות לאתגר את התוקף המדעי של הכלי – דבר המהווה פגיעה בזכות להליך הוגן.

בתי המשפט שוב ושוב דחו את טענות LOOMIS נגד האלגוריתם

את בית המשפט זה לא שכנע. הוא פסק נגד Loomis והסתפק בקריאה לשימוש זהיר באלגוריתם. וזאת על אף שהשופטים כלל לא נחשפו לקרביים של האלגוריתם (וגם אם כן – האם הם כשירים להבין בזה משהו..?!). בבימ"ש העליון של ארה"ב נתקל Loomis שוב בסירוב, כיוון שהשופטים דחו את העתירה.

ובקיצור, לגבי Loomis הסיפור תם ונשלם, את עונשו הוא יירצה…

לגבי הסוגיה בכללותה – אני מקווה שנשאר לכם חומר למחשבה…

על הבלוג וגם עלינו

קמים להם שני אנשים יום אחד ומחליטים לכתוב יחד בלוג. הם רוצים שהוא יעסוק במפגש בין טכנולוגיה חכמה, בינה מלאכותית לבין בני-אדם והחברה האנושית.

וכי למה? אפשר להגיד שיש כמה תחושות שעוררו אותנו לכך.

לפני הכל ניצבת לה ההרגשה שהטכנולוגיות החדשות יוצרות מכרה זהב של שאלות אנושיות-חברתיות-פילוסופיות-משפטיות. ויהיה קצת חבל לפספס את ההזדמנות לתפוס אותן בשתי ידיים (או ארבע), ולהעמיק בהן.

אבל זה גם יותר מזה. לחיצת היד בין האדם לבין המכונה איננה דבר חדש כמובן. אבל הגענו לתקופה שבה מתערערות להן כל מיני הנחות יסוד ומוסכמות ישנות – לגבי מקומו של האדם בעולם, לגבי המבנים חברתיים שיצרה האנושות במרוצת ההיסטוריה… והכל בשל התפתחות מרשימה של הטכנולוגיה.

פתאום מתווכחים האם בפנינו revolution, מהפכה של ממש, או רק evolution, בסך הכל 'עוד שלב' בהיסטוריה האנושית! האם עדיף שאדם יקבל החלטות או רובוט? והאם קרב היום שבו המכונות ישלטו על האדם? היסודות מתערערים להם מעט, ואנחנו רוצים לבחון את התהליך הזה מקרוב.

מעל פני כל זה מרחפת לה גם התחושה התמידית שכשהדברים זזים מהר, ההשלכות חומקות לנו מבין הידיים (והנוירונים). חשבנו לתומנו שהבלוג הזה יהיה הזדמנות טובה להדביק טיפה את הפער. 

כאמור הבלוג הזה ינסה לגעת בנקודות במפגש שבין הטכנולוגיה לבין האדם, בין הבינה המלאכותית לבינה האנושית, בין התועלת הטמונה בפיתוחים המתקדמים לבין הסיכונים שהם יוצרים והכל מתוך ניסיון לחשוף את האזורים שבהם נקודות המפגש הללו דורשות חשיבה מחודשת.

מה היכולת של בני אדם 'להבין' מכונות? ולהיפך – מה היכולת של מכונות 'להבין' את האדם ואת המציאות?

האם נכון לשלב אלגוריתמים של למידת מכונה בהחלטות שיפוטיות ובקבלת החלטות באופן כללי? ובמערכת הבריאות? ובמוסדות חינוך? ואם כן, מה המשמעויות של אינטגרציה שכזו ומה הכללים שצריכים להנחות את המערכות הללו?

למי שייך הדאטה – לחברות הגדולות או למשתמש הקטן? מה ההסדר הראוי? איפה עובר הגבול בין האתי ללא-אתי בעניינים הללו?

ואם כבר דיברנו על אתיקה… איך 'אוכפים' כללים אתיים בעולם שלא מפסיק להתפתח ללא יד מכוונת?

אתם כבר מבינים שהשאלות הללו משלבות כל מיני תחומים ודיסציפלינות – טכנולוגיה, משפט, סוציולוגיה, ועוד ועוד.

אנחנו מקווים להצליח להעלות לכאן תכנים מעוררי מחשבה שיפתחו את הנושאים האלו, ועל הדרך גם לתת לכם המלצות קריאה ושמיעה.

אגב, חשוב להדגיש שלא נדרש כאן ידע טכנולוגי מתקדם, הבנה טכנית מינימאלית היא מספיקה לגמרי – כי כאמור העניין שלנו הוא לא בטכנולוגיה עצמה אלא דווקא במה שסובב אותה, בהשפעותיה. אם נפגוש, ונפגוש, צדדים טכניים נשתדל להסביר אותם בבהירות הנדרשת.

רגע, רגע, מפתחים/מתכנתים… לא לברוח – לדעתנו הנושאים הלא-מדי-טכניים הללו עשויים להיות רלוונטיים גם במקצוע שלכם, כשאתם ממלאים את חובתכם מול המחשב, וגם כבני אדם. לאופן שבו אתם מפתחים את המוצר שלכם יש השלכות לא מבוטלות על משתמשי הקצה.

ולבסוף, אולי בכל זאת שני משפטים על עצמנו.

אנחנו איתי ונתנאל, בני 30. איתי, עובד במיקרוסופט, ולומד לתואר שני בסטטיסטיקה. נתנאל השתחרר לא מזמן משירות צבאי לא קצר, מחפש את דרכו, ועד שימצא – מתמחה במשפטים.

תודה שהגעתם, ומקווים שתהנו.