אפליה של אלגוריתמים – הכצעקתה?

יש חדש תחת השמש? ואם כן – מה?

בפוסט זה נעסוק בהטיה ואפליה של אלגוריתמים. רבות כבר נכתב על הנושא הזה (וגם אנחנו כבר כתבנו על אלגוריתם COMPAS). לפעמים נראה שמדובר בשיח של חרשים, משום שאפילו ההגדרות של שוויון אינן מוסכמות. ברצוני לגשת לבעיה הזאת מנקודת מבט קצת אחרת. ננסה לפצח האם אפליה של אלגוריתמים היא תופעה חדשה או תוצר אבולוציוני של אפליה שתמיד הייתה וגם תמיד תהיה. ואולי דווקא בימינו, נולדות דרכים חדשות להלחם באפליה.

מובן שאפליה כשלעצמה לא התחילה רק לפני כמאה שנה, כשטיורינג המציא את המחשב. אפליה על בסיס מין, גזע, לאום, נטייה מינית וכיו"ב, כבר הייתה קיימת מראשית האנושות. מכאן שהזעקות על "עולם חדש" (ולא "מופלא") של אפליה הן מוגזמות כנראה. ובכלל, שום אלגוריתם לא יקלל, יכה או יהרוג אותך רק בגלל היותך יהודי, זאת לעומת בני אדם שעשו זאת… לפיכך הדיון כאן לא בא לגמד את התופעה, אלא להכניס אותה למסגרת מוכרת יותר של המאבק באפליה.

יש הטוענים שקל יותר לטפל באפליה שגורם אלגוריתם מאשר באפליה שגורמים בני אדם. לא קל להוכיח אפליה הנוצרת בגלל אנשים. איסוף הנתונים יכול להיות יקר ולארוך זמן רב, וייתכן שאז כבר יהיה מאוחר מדי. לעומת זאת, את האלגוריתם אפשר להריץ בזמן קצר, ובעזרת ניתוח תיאורטי למצוא את האפליה. נדגים זאת בעזרת השוואה בין אפליה אנושית לאפליה של אלגוריתם בשוק העבודה.

קורות חיים של מועמדים פוטנציאליים

אדם ואלגוריתם באים להפלות

במחקר מפורסם שנערך ב-2003, שלחו החוקרים אלפי קורות חיים למעסיקים פוטנציאליים. קורות החיים נשלחו כמענה למודעות דרושים שפורסמו בעיתון. המחקר ניסה לענות על השאלה אם יש אפליה כלפי שחורים. החוקרים בחרו אקראית קורות חיים מתוך מאגר שהיה ברשותם, ושלחו שמות שהיו שמות של לבנים במובהק או שמות של שחורים במובהק (למשל, בחירה בשם Emily לעומת Lakisha). התוצאות היו חד-משמעיות. המעסיקים חזרו ל"מועמדים" הלבנים כ-50% יותר מאשר חזרו ל"מועמדים" השחורים. תוצאה זו הייתה יציבה עבור ערים שונות, מקצועות שונים ומין המועמדים.

גם אלגוריתם לגיוס עובדים של אמזון התגלה כמפלה נגד נשים. האלגוריתם חיפש באינטרנט קורות חיים, ושלח הצעות עבודה למועמדים שנראו מתאימים. התברר שאף שלאלגוריתם לא ניתן במפורש מין המועמד, האלגוריתם הצליח לזהות מילים מסוימות הקושרות את המועמד למינו. לדוגמה, המילה “executed” היא מילה נפוצה בקורות חיים של גברים, ואילו Women’s Collage (קולג' לנשים בלבד) יופיע כמובן רק אצל נשים. הסיבה שהאלגוריתם היה מפלה היא משום שהוא "אומן" על החלטות גיוס קודמות של אמזון.

בואו נשווה בין המקרים. כדי להגיע לתוצאות במחקר נדרש זמן רב, עבודה רבה ו"שפני ניסוי" רבים. במחקר שהזכרנו רק שלב איסוף הנתונים ארך שנה שלמה (!). לאלפי אנשים (אמנם וירטואלים) נגרם עוול, רק כדי שנוכל להגיד שקיימת בעיה. וזה עוד לפני שבכלל ניגשים לפתרונות.

בני אדם לא נוטים להשתכנע בקלות שרצוי שיפסיקו להיות גזעניים. נסה לשכנע מגייס, שדחה קורות חיים של אדם שחור, שהוא גזען. אנשים נוטים להתגונן ולא לשנות את התנהגותם.

לעומת זאת, את האפליה של האלגוריתם אפשר היה לאתר על ידי סימולציות בלבד. וברגע שמצאת את הבעיה, פשוט תתקן את הקוד, האלגוריתם לא יתגונן ולא יתלונן …

למרות כל זאת, ברור שלהטיה של אלגוריתמים סכנות משלה. היכולת המדהימה של למידת מכונה לתת אלפי תשובות בשנייה יכולה להיות בעוכרינו. ההשפעה שיכולה להיות לאלגוריתם, בהתחשב בתפוצה והאוטומטיות של התשובות, יכולה להיות עצומה. זהו בדיוק המקום שבו בא לידי ביטוי האופי ה"משתכפל" של הטכנולוגיה. אם האלגוריתם של אמזון היה מופץ גם לחברות אחרות, לדוגמה במסגרת שירותי הענן של אמזון, הוא היה גורם לאפליה בכל העולם! כמו כן אפילו במחקר שהצגנו, היו מגייסים שהפלו לטובה את השחורים דווקא, ואילו אם האלגוריתם של אמזון היה מופץ, ההטיה הייתה לכיוון אחד בלבד.

יתר על כן, אנשים מתייחסים לטכנולוגיה אחרת מאשר להחלטות של בני אדם. אנשים נוטים לייחס לטכנולוגיה אובייקטיביות שאין הם מייחסים לבני אדם. בכל ויכוח אנחנו מנסים "לפצח" את הכוונות הנסתרות של בן שיחנו. לדוגמה, תמיד תעלה התהייה אם מי שמתנגד לאפליה מתקנת הוא גזען בסתר. לעומת זאת, באובייקטיביות של החלטות אלגוריתם איננו מעזים לפקפק. משמציגים לפנינו מספרים וקוד, מיד נשתחווה אפיים ארצה ולא נחשוב על המתכנת ועל הדאטה המסתתרים מאחורי המודל. תופעה זו נפוצה גם בקרב אנשים חסרי גישה לטכנולוגיה וגם בקרב המתפרנסים מכתיבת קוד או מודלים.

נשמע מפחיד? אכן כן. עכשיו דמיינו שנצליח לפתור את האפליה באלגוריתם של אמזון. בבת אחת כל החסרונות שהצגנו הופכים ליתרונות. אמזון תפיץ לכל העולם את שירותי הגיוס השיוויניים שלה, מה שכנראה לא היה מעולם. אף גזען לא יעיז לפקפק בהחלטות של האלגוריתם. ימות המשיח ממש!

הדילמה: ריכוז לעומת ביזור

ריכוז לעומת ביזור

אם כן, ברור שאלגוריתם מפלה הוא בעיה, לאו דווקא חמורה יותר או פחות מאפליה אנושית, אלא שונה. אם תרצו, האלגוריתם עוטף את כל הבעיות הנמצאות בדאטה, ומגיש לנו אותן בבת אחת. אם רוצים לטפל בבעיות אלה, צריך לפתוח את העטיפה ולהבין מה קורה בפנים. לא תמיד הדבר קל, ולפעמים אף בלתי אפשרי, אבל לפחות יש מקום מסוים ויחיד שבו אפשר לחפש. זאת לעומת אפליה הנוצרת על ידי אלפי סוכנים המבצעים החלטות מפלות, כל אחד מסיבותיו הוא, ואולי אף בכיוונים שונים.

אני מניח שיהיו כאלה שיחשבו שעדיף לרכז הכול במקום אחד ולנסות להתמודד איתו שם. כך נוכל להקים רגולטור ייעודיי שיתמחה באפליה. הצוותים האלה יכללו כמובן מהנדסים וסטטיסטיקאים, אבל גם פילוסופים, פסיכולוגים, אנשי דת ואחרים. כך נוכל לפתור בעיות שאנחנו מתמודדים איתן במשך אלפי שנים. דמיינו עולם בלי אפליה, עולם שיש בו אחווה אנושית, עולם הכול חולקים עם הכול…

מן הצד השני, יש אנשים שעצם הרעיון הזה מעורר בהם חלחלה. הרעיון שיהיה רגולטור שיוכל להחליט מהי אפליה יכול בקלות לדרוס דעות ורעיונות. ריכוז הכוח בידי גוף אחד יגרום לכולם להיות מחויבים לעקרונות של אותו הגוף. למשל, אם תיאסר האפליה נגד כבדי משקל, גם חברות אבטחה לא יוכלו לסנן מועמדים כאלה, וזאת עוד טרם הדיון על אפליה מתקנת. לפי גישה זאת עדיפה אפליה מבוזרת, על פני "מניעתה" באופן ממוסד.

לסיכום, התמודדות עם אפליה של אלגוריתמים שונה מהתמודדות שגרתית עם אפליה. האלגוריתם מרכז את כל ההחלטות שעליהן אומן, גם הטובות וגם הרעות. התפוצה הרחבה יכולה להיות קטסטרופה או ברכה. מי ייתן שנצליח.

פועלי הדאטה – התאחדו!

"ארגון משתמשי הפייסבוק מודיע:
ממחר נשבית את כל שיתופי התמונות עד להודעה חדשה!"

כך צעקו כותרות העיתונים באותו בוקר יום א'. צוקרברג המשיך לשדר רוגע ואדישות, אבל מבפנים הוא היה די מוטרד. ואפשר להבין אותו…

עד לא מזמן הוא עוד חשב שיוכל להמשיך לתגמל את יצרני הדאטה בפרוטות. אבל עכשיו, לחץ! הם התאגדו ונמאס להם – השביתה כבר נותנת אותותיה ומניית פייסבוק צונחת בבורסה. בשקט בשקט, הנחה המיליארדר את באי כוחו לקבוע, עוד הלילה אם אפשר, פגישה עם ארגון המשתמשים. אולי זה ייתן קצת מרווח נשימה?

נשמע לכם כמו תרחיש מוזר? כן נכון. אבל יש כאלו שמבחינתם הדמיון הזה הוא תרחיש ורוד.

שני צעדים אחורה

בשני פוסטים קודמים (דאטה איפה ההורים שלך [1], [2]) עסקנו בכאב הראש שגורם לנו מושג ה'דאטה' – איך להגדיר אותו? למי הדאטה שייך: האם לי – כי זה הגיל/מקום המגורים/חברים/תמונות שלי?! או לחברה המסחרית – כי בלי עיבוד המידע שהיא מממנת מכיסה אין למידע שום ערך?

באותם פוסטים הצגנו את הרעיון להכריח את חברות הענק (גוגל, פייסבוק ושות') להפריש דיבידנדים מהרווחים שלהם ולהזרים אותם למשתמשים/בעלי הדאטה כתגמול על שיתוף הדאטה שלהם. כי אם הדאטה שלי שווה כסף – אני רוצה לראות ממנו זוזים! מהזווית הזו הדאטה נתפס כקניין אישי.

אחד המתנגדים לרעיון הזה הוא Glen Weyl. בפוסטים דאז עלה שמו על הדרך. כאן נרחיב בעניינו וברעיונות המוזרים אך מעוררי המחשבה שלו.

לגופו של אדם

Glen Weyl נראה כמו בחור ססגוני יחסית. הוא עובד במייקרוסופט במשרד שאת כותרתו אני ואחרים טרם הצלחנו לפצח (Microsoft Office of the CTO Political Economist and Social Technologist); הוא יועץ בענייני "הקשר בין הכלכלה הגלובאלית לעתיד הטכנולוגיה"; הוא פעיל חברתי-דמוקרטי-סוציאליסטי-מעריץ Ayn Rand, שילוב מעניין לכל הדעות; והוא גם הקים תנועה חברתית בשם RadicalxChange שמטרתה המוצהרת היא "לבנות אלטרנטיבה לקפיטליזם כדי לתקן אי-שוויון ופגיעה בערכים דמוקרטיים".

לגופו של עניין – Data Freedom Act

אחת היוזמות של Weyl ותנועתו מובאת בהצעה בשם: Data Freedom Act.

נקודת המוצא של היוזמה היא שלא נכון להתייחס לדאטה כקניין אישי אלא כאל טובין ציבורי. רוב הדאטה שלי נוצר מאינטראקציה עם אחרים שבעצמם מתקשרים עם אחרים, וכן הלאה. אם הדאטה שלי הוא תמונה – סיכוי טוב שמופיעים בו אחרים; כשאני עושה לייק למישהו, המערכת יודעת שאני אחד מאוהדיו של אותו בר מזל; כשאני מגלה ברשת מי הם הוריי, אחיי או ילדיי – היא לומדת גם עליהם. ויותר מזה – כל המידע שאני מייצר, גם אם הוא רב, לא שווה דבר עד שהוא מצטרף לכל המידע שאחרים מייצרים. במילים אחרות, הדאטה הוא דוגמה קלאסית לפרדוקס הערימה – כל גרגר בפני עצמו לא שווה דבר, ורק צירוף כל הגרגרים הוא שיוצר ערימה נראית לעין. כלומר, אין דאטה, ובמיוחד לא ערך לדאטה, ללא רשת שמחברת בין רסיסיו.

ה-Data Freedom Act טוען שההסתכלות הקניינית-אינדיבידואלית יוצרת שתי מכשלות נוספות. הראשונה היא כלכלית – החברות הגדולות עושות רווח עצום בזמן שהקהילה רואה פרוטות. ובעית שליטה – כשהמידע עובר לידיים זרות, הקהילה מאבדת כל אפשרות להחליט בידי מי הוא יהיה ומה ייעשה בו ("אנחנו לא רוצים שהדאטה שלנו ישמש לבניית מאגר זיהוי פנים!"… "אהם, כן בסדר, שמענו אתכם").

דאטה כעמל – Data as Labor

לכן קוראים Weyl וחבריו לשינוי פרדיגמה. אם הדאטה הוא תוצר-של-קהילה, למה לא לעשות צעד נוסף ולהקים ארגון שינהל אותו באופן קולקטיבי?

במקום להתייחס לעצמנו כאל יחידים המפיקים דאטה וירטואלי כל אחד בד' אמותיו, הם מציעים להתכנס לכדי קהילה מאורגנת של יוצרי דאטה. "השיטוט הוירטואלי הוא עבודה לכל דבר ועניין!", הם אומרים. אנחנו משקיעים זמן ומאמצים, ובצד השני של פס הייצור מופק דאטה בעל ערך – על זה מגיע לקהילה שלנו תגמול!

כחלק מהמהלך הזה הם מבקשים לאזן מחדש את היחסים בין 'יצרני הדאטה' (Data Producers) לבין 'רוכשי הדאטה' (Data Buyers). עד היום היינו אנחנו, משתמשי הרשתות החברתיות, עומדים לבד, חלשים ומדוכאים מול כל הטריקים והשטיקים של ענקיות האינטרנט: חוזי השימוש, אותיות הקטנות, והכל בתיבול קצת תרגילי כלכלה התנהגותית – וכך העדר ממשיך להשתמש בשירותי החברות, ועוד מרגיש שעושים לו טובה עם גישה חינמית. אם רק נדע לאגד את פועלי הדאטה בארגוני גג, בהסתדרויות עובדים, נוכל להילחם בשרירות ליבן של החברות.

מטרת ההסתדרויות היא לעשות לפייסבוק ודומותיה צרות. הענקית תיאלץ לסור לשולחן הדיונים, לנהל משא ומתן, להיענות לדרישות, ולהתחייב לתנאים טובים יותר. בתרשים זה נראה כך:

בני הקהילה מאצילים את הדאטה שלהם לשליטת קואופרטיב דאטה. הוא בתורו מתמקח על זכות השימוש בדאטה מול צרכני הדאטה ומוודא שהם מתנהלים כראוי. הצרכנים מעבירים תמורה לבני הקהילה, שחלקה גם בשירותים טובים יותר או נטולי פרסומת.

בהמשך עשויה להיווצר רשת של ארגונים בעלי מדיניות שונה – חלקם יחרתו על דגלם את השמירה על הפרטיות, ואחרים יציעו למקסם רווח על חשבון הפרטיות.

בשלב זה קיים סיכון של מירוץ לתחתית: כדי למשוך יותר משתמשים ולגזור קופון מוגדל יציע ארגון אחד את הדאטה שלו במחירי רצפה.

אבל… בעיה! כמו שהסברנו למעלה, דאטה הוא תמיד משותף. מכירה במחיר נמוך מדי עשויה למנוע מאחרים, שמידע עליהם זמין בתוך המאגר של הארגון ה'סורר', להשיג מחיר טוב. לכך מוצעים פתרונות שונים: כגון להגדיר כלל הכרעה דמוקרטי על פיו במקרה שבו דאטה הוא משותף ושני ארגונים רוצים למכור במחירים שונים, הרוב יקבע.

זה רק טפח מרעיון שרק הולך ומסתבך. אמת – זה לא כל כך קל לנהל משאב משותף למיליארדים…

הצטרפו עוד היום…

צריך להגיד שהרעיון של Weyl לא נפל על אזניים ערלות, ויש ברחבי האינטרנט כמה כוכבים שמעוניינים מאוד שתצטרפו לארגוני הדאטה שלהם.

Bas Van der Gaag, מורה למתמטיקה מהולנד, הקים את ה-Data Union ואף זכה לתמיכה פוליטית מסוימת. התאגדות אחרת נקראת Data Workers Union, ושולחת מסרים מילטנטים למדי: "אנחנו 7.6 מיליארד עובדים, שמייצרים 2.9 אקסה-בייט של דאטה ביום, 24 שעות ביום; צריך להתנגד לגוגל-פייסבוק; להילחם על הפרטיות; הדאטה הוא של הכלל ולא של הפרט!". והכי נועז: הצטרפות לארגון דאטה היא דרך להילחם ב'קולוניאליזם הדיגיטאלי' של מדינות המערב הבולעות את גולשי המדינות החלשות אל תוך שורות משתמשיהם, ועוד תחת מעטה של 'טכנולוגיה הומניטארית'!

Data Workers Union
7.6 מיליארד פועלים, 2.9 אקסה-בייט של דאטה ביום, 24 שעות ביממה.
צריך להפוך הכל לתגמול על עבודה.

התרופה חמורה מן המחלה!

חדי העין מביניכם זיהו אולי את הנימה המעט-משועשעת של הפוסט הזה. זה לא מתוך זלזול ברעיון, שהוא לכל הפחות מקורי ומעורר מחשבה.

העניין הוא שיש לי תחושה שחסרונות השיטה המוצעת עולים בהרבה על הבעיה שהיא מתכוונת לפתור – ובפרפראזה על טראמפ על הקורונה:"The cure is worse than the disease".

הרצון התמים לפתור את הבעיה המורכבת של הדאטה, הביאה במקרה שהוצג כאן למנגנון מסובך מדי. אני שם בצד את ההיבט המיליטנטי והאנטי-קפיטליסטי, שהוא גם עניין של טעם ודעה. אבל המשמעות של בליל של ארגוני דאטה חדשים היא היווצרות קבוצות אינטרס חדשות, מתחרות ומסוכסכות. במחלוקות צריך להכריע, כדי להכריע צריך מכריעים עם לגיטימיות, ולגיטימציה זה תמיד עילה לפוליטיקה מלוכלכלת. כמובן שיהיו גם ארגונים סוררים, שעליהם נרצה לאכוף את ההחלטות – מי יאכוף? איך יאכוף? הכל יהפוך לסלט אחד גדול, לית דין ולית דיין, וזה עוד מבלי לקחת בחשבון את ההפרד ומשול שהחברות הגדולות ינסו לעשות.

וגם – כיצד משכנעים אנשים רגילים להצטרף לרעיון הזה? איך פונים ל"משתמשי הפייסבוק" – זו קבוצה ערטילאית לגמרי, ללא זהות מובחנת, לא ריכוזית בעליל. חוץ מכמה משוגעים לדבר שמסוגלים לדמיין מה זה דאטה, ולעשות עם זה משהו – אני לא רואה איך מגייסים המונים לעניין.

הנקודה השלישית היא הרעיון על פיו יצירת דאטה=עבודה. בהיבט הזה אני חושב ש-Weyl וה-Data Freedom Act פישלו לגמרי. אני מדמיין את התהליך המחשבתי שלהם ככזה:"אההםםם דאטה זה מושג מסובך, צריך להחזיר את השליטה עליו… איך נמשיג את זה? עבודה! כן, זה לא רע!". לעניות דעתי הם לא חשב על ההשלכות הערכיות העמוקות של הדבר הזה. האם בני אדם ירוויחו מהתייחסות לכל שימוש שלהם באינטרנט כאילו זו עבודת כפיים? אני חושב שלא.

הפיכת ייצור הדאטה לעבודה היא עוד צעד בערבוב המוגזם בין עבודה לפנאי, בין הפומבי לאישי, בין אינטימיות לבין חשיפה – עוד שלב בהפיכת "הכל" למסחרי וממוסחר. כי אם הכל עבודה, אז איפה המרחב ה"נקי" הניטרלי (יחסית) שלי? איפה המרחב שבו אני לא נתפס, ולא תופס את עצמי, כיצרן של משהו אלא פשוט כאדם פשוט?

אמנם, נכון הדבר, אנחנו חיים בעולם מטושטש – אני יכול להשכיר פינת חדר ב-Airbnb להציע את הרכב ל-Carpool מניב, ולהציע שירותים לפי שעה כ-Gig Worker. אבל בסופו של דבר אנחנו עדיין נהנים ומאמינים בהפרדה היסודית בין עבודה לבין כל השאר.

עבודה היא המקום בו אנחנו עובדים בשביל להרוויח כסף/ליצור/להעצים את יכולותינו (מחקו את המיותר). השאר, בניגוד לכך, הוא הזמן לבילוי/מרגוע/בניית זהות/התקפלות… יצירת דאטה היא רק תוצר לוואי של העבודה או של גלישה ופעולת שיתוף מידע ברשת – במקומות האלו אני ממש לא רוצה לשמוע על "יצירה" ו"עבודה". Data As Labor מערער על היסודות ההפרדה הזו: אם יצירת דאטה היא עבודה לכל דבר ועניין – אז כל מה שאני עושה יום וליל (חוץ משעות השינה שם אני מייצר בעיקר נחירות שגם אותן אפשר לנצל) – הוא בעצם עבודה (תסתכלו שוב  על התמונה למעלה >>> 24 שעות ביממה!).

אם יצירת דאטה היא עבודה לכל ודבר ועניין – אז כל מה שאני עושה יום וליל הוא בעצם עבודה.
(חוץ משעות השינה שם אני מייצר בעיקר נחירות, שגם אותן אפשר לנצל.)

קראו לי תמים שרוצה להתעלם מזה שצפיית הנטפליקס שלי היא עוד יצירת דאטה שמנוצלת בידי החזקים. אבל בעיני Data as Labor הוא דוגמה לקריאת שחרור ושוויון מלאת רצון טוב שבמקום להעצים את החברה האנושית, מסכנת את האנושיות הפשוטה של האדם.