דאטה – מי ההורים שלך? [2]

מסקנת הפרק הקודם הייתה שראוי שלפחות חלק מן המידע על אדם יהיה סחיר. הפוסט הזה מאיר היבטים ישומיים של הרעיון הזה.

בפוסט הקודם הצגתי את היוזמה של מושל קליפורניה להנהיג Data Dividend, חלוקת רווחים למשתמשים על סחר בדאטה שלהם. ראינו שברמה התפיסתית הבסיסית לא ברור למי נתונים שייכים ומי צריך להרוויח מהם. לבסוף עלתה הסברה שראוי מאוד שדאטה, לפחות בחלקו, אכן יהיה משאב סחיר. נמשיך עם ההנחה הזו וננסה להתחקות אחר שיטות אפקטיביות לחלוקת רווחים בגין סחר בדאטה.

כמה זה שווה?

בואו נחשב, בממוצע ובחישוב הכי גס שיש, כמה משתמש עשוי להרוויח מדיבידנד מפייסבוק? Steven Hill מגחיך את כל הסיפור ומחשב כי אם נחלק את רווחי פייסבוק בין 2 מיליארד המשתמשים החודשיים של החברה נגיע למספר המדהים של… 7.35$ למשתמש; ובטוויטר – 2.83$. אה וגם צריך לציין שהחישובים הנ"ל משאירים את החברות בלי הכנסות, בעיה…

זה חישוב פשטני מאוד אני מודה אבל הוא משקף בעייתיות מסוימת – הליך החלוקה של הרווחים הוא מסורבל מאוד (חקיקית, אכיפתית, מנגנונית) והרווח בקצה לכל משתמש עלול להיות נמוך ביותר. ולאור זאת אפשר באמת לשאול – על מה ולמה כל הרעש?

אחרים הציעו שיטות קצת יותר מתוחכמות.

ערך שפלי ואיגודי עובדים – שני כיוונים מעניינים לחלוקת רווחים

Eric Bax במאמרו "Computing a Data Dividend" מציע להשתמש בכלי מוכר מתורת המשחקים הלא הוא- ערך Shapely.

ערך שפלי פותח על ידי… שפלי בשנות החמישים והוא משמש כפתרון לסיטואציות בהן נדרש לחלק רווחים בין שחקנים בתוך קואליציה מורכבת. כך למשל בחישוב כוחן של מפלגות בפרלמנט. או אז עולה השאלה – כיצד מחלקים את הרווחים באופן אשר משקף את התרומה של כל אחד לקבוצה מבלי לפגוע בתמריצים להצטרף לקבוצה? (אתנחתא פוליטית – מה צריך להיות התגמול של מפלגת מאזניים ישראלית שמשפיעה בחוסר פרופורציה לכמות המנדטים שלה?)

האתגר הגדול הוא שבכל קבוצה ישנם כאלו שמביאים יותר ערך לקבוצה מאחרים. נוסף על כך, אם נחלק את הרווחים לפי סדר ההצטרפות לקואליציה אנחנו עלולים להיתקע. דמיינו למשל דינאמיקה של 'הכל או כלום' שבה קואליציה מייצרת ערך רק כשהאחרון מצטרף אליה. לכאורה אותו האחרון צריך לקבל יותר, שהרי בזכותו הדיל נסגר. אך אם נפעל כך, כל אחד מהשחקנים ירצה להיות אותו האחרון בר המזל, מה שיתקע את תהליך ההצטרפות. כדי להתגבר על כך, ערך שפלי מחשב לכל שחקן ושחקן את הערך שלו תוך מיצוע כל האופציות האפשריות של סדר ההצטרפות של השחקן ובכך משמר הליך הצטרפות אובייקטיבי שאינו תלוי מיקוח בין השחקנים.

זו הצעה מעניינת כיוון שהיא מאפשרת לבחון את הערך של כל אחד ממשתפי הדאטה ולבחון מה הרווח, מתוך הסך הכולל, שצריך כל אחד ואחד להפיק מהסחר בדאטה. זה יכול להועיל כיוון שאם הנתונים שלי תורמים יותר לפלטפורמה מסוימת מאשר של חברי – מטעמי הוגנות נכון שאקבל יותר דיבידנד. יש לציין ש-Bax איננו מתיימר לפתור את כל הבעיה ומעלה בסיכום המאמר מורכבויות נוספות ומעניינות מאוד (למעוניינים, יש במאמר חישובים ונוסחאות וכן פרק Discussion מעניין).

אחרים כגון Glen Weyl הציעו להקים "Data Labour Unions". המשתמשים יתאגדו למעין איגודי עובדי-דאטה וכך כוח המיקוח שלהם יתעצם מול חברות המחזיקות במידע. הרעיון שבבסיס השיטה של Weyl הוא שהמשתמשים הפכו להיות שלא במודע עובדים (עבדים?) של הפלטפורמה. כיוון שרק בזכות המשתמשים-עובדים ומידע העתק שלהם המודל של החברות מרוויח הון, מן הראוי שהם יזכו בנתח מכובד ממנו. על פי Weyl אחד ההישגים של התאגדות יכול להיות מעבר מגלישה ה'חינמית' ברשתות החברתיות שהוא למעשה רווי פרסומות, לגלישה נקייה – והכל באמצעות מו"מ ויחסי כוחות שווים.

[[למי שעולות אסוציאציות קומוניסטיות-מהפכניות, בעלי הון-פרולטריון, זה לא סתם – אבל בזה נעמיק יותר בפעם אחרת.]]

תנו כבוד לפועל אמיתי, בחור לעניין, לא כמו פועלי-הדאטה הבוהים במסכים

סוג של סיכום – כסף תמורת פרטיות?

בפוסט הזה ובקודם לו נגענו בקצה קצהן של שאלות "האם סחירות של דאטה?" ו"איך סחירות של דאטה?" גם יחד והארנו את מורכבויות הרעיון. לסיכום שני הפוסטים אני רוצה להתעכב על הרעיון על פיו אדם יפיק הכנסה ממכירת דאטה שלו ולציין את הסיבות שבגללן לא לגמרי נוח לי איתו.

הרבה מהחברות אנושית, המודרניות יותר והפחות, עסקו בניסיון להגדיר את היחס שבין אדם לקניינו ובסימון גבולות ומגבלות על סחירות וזכויות קנייניות. דוגמאות: אסור לי למכור את איברי הגוף שלי מבחינה חוקית, על זכויות קנייניות ביחס לנכסים מסוימים חלות מגבלות, כגון סחירותה המוגבלת של חלקת קבר. כלומר – גם כשמשהו שייך לך לכאורה, מוטלות הגבלות על היכולת לסחור בו מכל מיני סיבות ("ערכיות" למשל). מטבע הדברים זו שאלה רלוונטית גם בעניין הדאטה.

תחושתי היא ששוק שבו הכל אפשרי, כל הדאטה סחיר ותלוי אך ורק בביקוש-היצע, הוא בעייתי. האם ראוי שבני אדם ימכרו נתונים אודות נטיותיהם המיניות, מגדרם או שייכותם האתנית לכל המרבה במחיר? יש את בעיית ההסכמה – גם אדם אשר מסכים מרצונו החופשי למכירת פרטים אינטימיים נמצא תמיד בפער ביחס להשלכות שליליות פוטנציאליות של הסכמתו. נוסף על כך, הגם שלאדם X זה לא מפריע, מציאות כזו משנה יסודות חברתיים עמוקים, למשל בגבולות הפרטיות, ועשויה להשפיע לרעה גם על אינדיבידואל Y, ולו רק בשל הרף הקלוקל החדש שהוצב. לנו כחברה אנושית יש מקום להציב אידיאל מסוים של פרטיות, של מותר-אסור, לפעמים גם במחיר של פטרנליזם מה. לכל מי שעשוי להתקומם מול הרעיון הזה, אענה שיש מספיק דוגמאות מכל תחומי הקיום שלנו שמוסדרים או מוגבלים בדרכים כאלו ואחרות, ולכן זה לא רעיון זר או מופרך לטעמי.

ויקטור הוגו. פנטין, דמות מ"עלובי החיים", מכרה שיניים ושיער בעת צרה. מקור: ויקיפדיה

במובן מסוים ובהפוך על הפוך ייתכן שחלוקת Data Dividend תתברר ככדאית דווקא לחברות הענק, בהגבירה את הלגיטימציה של השיח הממוני על פני שיח הפרטיות. החברות יוכלו לטעון כי המשתמש הוא שויתר מרצונו החופשי, ועוד תמורת תגמול (!), על נתוניו הפרטיים.

כן! אנשים צריכים לדעת טוב יותר מי משתמש בדאטה עליהם, איך, למי הוא נמכר, ועוד. אך האם Data Dividend הוא הפיתרון הנכון? החשש שלי הוא שייווצר שוק ללא אמות מידה של ראוי ורצוי, שבו אנשים יתחילו 'למכור את עצמם'. נגלה שהזכות לפרטיות, המוכרת כזכות יסוד חוקתית בעולם המערבי, תתערער ותוחלף בשיטה שבה פרטיות תימכר כמוצר תמורת הכנסה. זה יפגע גם בקבוצות מוחלשות שבמרדף אחר מקורות הכנסה נוספים תהיינה מוכנות לוותר על הרבה פרטיות. ושוב, מצטער על הפטרנליזם שבטח מפריע לחלק מהקוראים, אבל כללים כלשהם כן צריכים להישמר בתחום הזה.

אני לא נגד לחשב את הערך של המידע שאני מפזר ואפילו שתהיה אפשרות לסחור בו ואכן צריך להיזהר ממהלכים הפוגעים בחירות, בקידמה ובחדשנות. אבל אני חושב שלא משנה לאן הרעיון של  Data Dividend יתגלגל לו, נדרש יהיה לבחון מה אמות המידה והמגבלות הנכונות.

דאטה – מי ההורים שלך? [1]

או – למי שייך הדאטה עלינו והאם ראוי שנרוויח ממנו?

בפברואר 2019, לפני כשנה, מושל קליפורניה Gavin Newsom קרא להחזרת השליטה למשתמשים על הדאטה שלהם. כצעד ראשון הודיע Newsom על כוונתו לקדם רפורמה שתחייב חברות, ובראשן גוגל ופייסבוק, לתגמל את המשתמשים בעבור סחר בדאטה שלהם עם צדדים שלישיים. ההצדקה למהלך הזה, לשיטתו, היא שאין סיבה שהחברות ישגשגו מבלי שהמשתמשים – הלא הם המקור לנתונים – יזכו לנתח מההון. כך עלה לו לקדמת הבמה המושג – 'Data Dividend' על פיו יופרש דיבידנד כספי לאדם מן הערך שנוצר משימוש במידע שלו או ממכירה שלו לצד ג'. המשמעות היא למשל שגלישה בפייסבוק שבמהלכה החברה אוספת על כולנו מידע אולי תהפוך למקור הכנסה. נשמע טוב?

Gavin Newsom מושל קליפורניה

כרקע למהלך הזה צריך לציין שכבר נעשה ניסיון דומה ב-2017 במדינת וושינגטון שלא התגבש לכדי חוק. ההצעה שם הייתה להטיל מס של 3.3 אחוז על מכירת דאטה. התומכים בהסדרים ברוח זו מתארים את המהלך כאמצעי להקטנת האי-שיוויון, מעין מעשה רובין הודי – לקחת קצת מהעשירים ולתת לעניים. עניינם הוא לשקם את היחסים הלא שוויוניים בין המשתמשים החלשים לבין חברות הענק  על ידי חיזוק כוח המיקוח של המשתמשים מול הארגונים. כפועל יוצא יוכלו המשתמשים לשלוט טוב יותר במידע האגור במערות השרתים של ענקיות האינטרנט.

במבט ראשון – זהו מהלך מעניין ואולי הגיוני, במיוחד בעידן בו המשתמש הפך להיות המוצר.

בפועל – זו סוגיה מורכבת המעלה תהיות מגוונות:

  1. מה המעמד של דאטה? למי הוא שייך ומי זכאי לשלשל לכיסו רווחים מסחר בו?
  2. סוגית הישימות – האם הפרשת דיבידנד מדאטה היא דבר ישים? האם היקף הרווחים הצפויים מצדיק מהלך סבוך שכזה?
  3. ולבסוף, מבחינה נורמטיבית-חברתית, האם נכון לחזק את מגמת הסחר-מכר בנתונים אישיים?

בפוסט הזה אגע רק בשאלה הראשונה. השאר ימתין בסבלנות לפוסט הבא.

הנפט החדש?! – אהם… האמנם?

יש הרואים את הדאטה כ"נפט החדש" ("The New Oil"). לנפט שני מצבי צבירה: בתוך האדמה, שם הוא לא שווה דבר; לאחר הפקתו מקרבי כדור הארץ לתוך חביות – אז הוא מתחיל לקבל ערך. כך גם דאטה אינו שווה דבר עד שיחולץ מן המשתמשים וייאגר בתוך בנק נתונים רחב. המתנגדים לגישה זו מדגישים את ההבדלים המהותיים בין השניים: חבית נפט היא מוצר פיזי טהור ואפשר לתאר אותה על ידי נוסחה כימית פשוטה. היא ניתנת לשכפול ומהווה משאב פיזי עם שייכות גיאוגרפית ובעלות מוגדרת. הדאטה לעומת זאת הוא אמורפי ונזיל, לא-פיזי – ועוד לא מצאנו את הרכבו הכימי…

אין לי עניין להכריע במחלוקת סביב המשל הזה פה, אני מביא אותו רק כי הוא מדגיש את הצדדים השונים בשאלה לדיון – איך נכון להסתכל על הדבר הערטילאי הזה שנקרא 'דאטה'? למי הוא שייך, אם בכלל? ומי בעל הזכות לקבל עליו גמול?

בתמונה – משאבת דאטה, סליחה – נפט

נתוניו של אדם הם כגופו

אפשרות אחת היא לגרוס כי נתוניו של אדם הם כגופו. כשם שיש לאדם ידיים, גפיים, רצונות ושאיפות – כך גם יש לו מאפיינים, שעל אף הערטילאיות שלהם מהווים חלק ממנו. הדאטה אינו דבר חיצוני לאדם, המתלבש עליו, או מרחף מעליו – אלא פנימי ומרכיב בעצמותו. ברמה הפרקטית תפיסה כזו תצמצם מיניה וביה את הנכונות לאפשר לסחור במידע – שהרי סוחרים בקניין ולא בנשמות של בני אדם (חוץ מניקולאי גוגול – קריאה מומלצת). יתרה מכך, ייתכן שעל בסיס תפיסה כזו אף יוטלו מגבלות על יכולתו של אדם לסחור בדאטה, כמו שקשה לנו עם האפשרות שאדם יסחר באבריו. ועוד, על בסיס עיקרון שדאטה הוא כגופו של אדם, סביר להניח שנכון יותר יהיה לדבר על דאטה במושגים של פרטיות מאשר של קניין, סחירות והעברת זכויות.

ובחזרה למשל הנפט – על פי גישה זו הקשר בין נפט, משאב טבע סחיר, לבין דאטה הוא מקרי בהחלט וכמו שאמר מישהו – "Data is about as likely a digital twin of oil, as a toaster is a mechanical twin of a quantum computer"… הנפט הוא סחיר, אך הדאטה של אדם, שהוא למעשה גופו – לא! לפי הגישה הזו, דאטה דיבידנד הוא מושג מטעה ושגוי, ואפשר בגדול לסגור את הדיון.

אבל זו גישה מעט קיצונית – דאטה הוא באמת דבר בלתי סחיר לגמרי?! אדם לא יכול למכור דאטה שלו תמורת כסף? לכן אפשר להציע אולי איזשהו ריכוך על ידי הבחנה בין סוגים שונים של דאטה. כיוון שיש סוגי מידע פנימיים-אינטימיים יותר ויש כאלו פחות, הסחירות של המידע יכולה להשתנות בהתאם.

את הדאטה אפשר לסדר אולי על 'ספקטרום של קרבה': בצד אחד (נגיד מימין) יש את המידע הרפואי על אדם או נטייתו המינית – נתונים רגישים ו'קרובים יותר' לאדם ולכן פחות סחירים. ככל שנזרום שמאלה בציר נפגוש נתונים כגון גובה וגיל, סכום העובר ושב שלו. בקיצון השמאלי יוצבו הנתונים האינטימיים פחות – סוגי המכוניות שברשותו, העדפות קולינריות וכדומה.

העובדה שיש דאטה שבו כן ראוי לסחור מובילה אותנו לשלב הבא.

תודה לפייסבוק שהביאני עד הלום

אז נניח שדאטה, לפחות בחלקו, הוא משאב סחיר ונמשיך עם ההבנה שמדגישה שנתונים מסוימים של אדם הם כמו נפט היושב בעומק המדבר העיראקי. עד שלא תבוא חברת ענק ותפיק את הנפט ממעמקי האדמה – הוא פשוט לא שווה כלום. באותה מידה, לדאטה על מישהו אין ערך כל עוד הוא לא נאסף, נבדק וצורף למיליון נתונים אחרים על ידי פלטפורמת אינטרנט גדולה. שיטה זו אינה מבטלת כמובן את האמורפיות והערטילאיות של הנתונים, מבחינה זו הם שונים מנפט, אבל עומדת בעיקר על היותם 'חבויים' עד כדי לא קיימים, עד אשר מגיע גוף מקצועי ומיומן המפיק את הדאטה ממחצביו. במובן הזה, כן!, דאטה הוא כמו נפט.

מה מסתבר? שאנחנו חייבים את פייסבוק כדי לעשות משהו מהדאטה שלנו! כיוון כזה מעורר את הדיון סביב חלוקת הרווחים – איפה עובר הגבול בין מה שאני חייב לפייסבוק על ההפקה, לבין מה שהיא חייבת לי על המשאב? איך נחלק את ההכנסות?

נעצור כאן לעת עתה, כיוון שזו בדיוק נקודת הפתיחה המתאימה לפוסט הבא… זה הזמן להפעיל את הנוירונים ולנסות לחשוב על מנגנונים חכמים לחלוקת רווחים מדאטה.

נ.ב:

לצורך כתיבת הפוסט שמנו בצד את האפשרות הסבירה שמדובר במהלך פופוליסטי ותו לא, כי בכל מקרה השאלה העקרונית מעניינת בפני עצמה. ואכן יכולה להיות תחושה ששיח ה-Data Dividend נגוע בפופוליזם-מה כאילו רובין הוד של קליפורניה לוקח מהעשירים ונותן לעניים.

ולראיה, ראו (באדיבות גוגל) איזה באז נוצר סביב המושג בתקופה שלאחר הנאום של Newsom (בפברואר 19'), ואיזה שיממון לפני ואחרי… מחשיד קצת, לא?

רגע, לא הבנתי – פרק 2

למה בכל זאת חשוב שנבין מה קורה בתוך האלגוריתם

בפוסט הקודם דיברנו על פער ההבנה, הנקודה שבה אנחנו מבינים שהמודל מורכב מדי מכדי שנוכל להבין אותו. הקופסא שמקבלת קלט ומוציאה פלט הופכת לקופסא שחורה מבחינתנו. ראינו שהיכולת של המודל להיות גמיש מגדילה את היכולות שלו, וגורם לכך שהוא יתמודד עם משימות קשות בעולם האמיתי. הפעם נתמקד בקשיים ביישום מודלים מורכבים, ונסביר למה, למרות שאנחנו רוצים מודלים גמישי ואפקטיבים, עדיין צריך לגשר בין ההבנה האנושית לבין יכולות החיזוי של המכונה.

דבר ראשון, מהזווית הכי פרקטית בעולם, קשה לעבוד עם מודל מורכב. תהליך עבודה של מדען נתונים הוא לא מאוד שונה מתהליך עבודה של מהנדס תוכנה. כותבים משהו, זה בערך עובד, מנסים משהו אחר, עובד קצת יותר טוב. משנים משהו נוסף, ופתאום שום דבר לא מצליח. היכולת של מהנדס תוכנה לדבג (debug), לעבור שלב שלב אחרי ביצוע של הקוד שהוא כותב, היא קריטית.

כך לדוגמא, אפילו על טעות קטנה וטיפשית, אפשר לבזבז שעות על גבי שעות. דמיינו שקיבלתם משימה להכין מודל שינבא רמת הכנסה, ובין הפרמטרים נמצאים מספר הרשעות ושנות השכלה. אך אבוי, העתקתם את הקובץ באופן לא נכון, והשמות של המשתנים הוחלפו. במודל הפשוט, נוכל להבחין ישירות שבאופן תמוה רמת ההכנסה צפויה לעלות עם מספר ההרשעות. כמה נורות אדומות ידלקו, וכנראה שדי מהר נמצא את הגיבוי ששמרנו בצד, ונתקן את המודל. אבל במודל מורכב, הנורות ידלקו הרבה יותר מאוחר. המודל אמנם יציג תוצאות לא טובות כאשר נבחן אותו, אבל לא נוכל למצוא בקלות את הבעיה. לא נוכל לזהות באופן מיידי שיש בעיה עם משתנה מסוים, אלא נתחיל לגשש באפלה. בעיה זו תמשיך להתעצם ככל שיש יותר משתנים והמודל עצמו הוא מורכב יותר.

אפשר כמובן לא להתרשם, ולטעון שאולי זה קצת מעיק, אבל בהחלט לא הרסני – זו בעיה של המפתח, שיתמודד. כל זה נכון בסביבה סטרילית שבה המטרה של המודל פשוטה, כנראה שבסוף נגיע לפתרון של בעיות כמו שתיארתי. אבל כאשר המטרה לאו דווקא ברורה או כאשר הנתונים סבוכים וענקיים – סביר שבלי כלי דיבוג טובים, טעויות רעות בהחלט יוכלו להסתנן למודל.

דוגמא מפורסמת לכך היא הזיהוי השגוי והמעליב של אנשים שחורים על ידי גוגל. בשנת 2015 גילה מהנדס תוכנה בשם ג'קי אלסין, שתמונות שהוא העלה לGoogle Photos מסווגות אותו ואת חבר שלו כגורילות. אין ספק שגוגל רואה בכך תקלה חמורה מאוד, אך עד היום, גוגל לא הצליחה ל"דבג", ולפתור את הבעיה.

זיהוי של שחורים בתור גורילות

אבל כמובן שזה לא נגמר פה. גם אם נבטיח שכל הנתונים נכונים, המטרה מוגדרת היטב והמדדים הבסיסיים מראים על דיוק גבוה, עדיין מודלים מורכבים יכולים להיות בעייתיים ואפילו מסוכנים.

מקרה מעניין ומלמד היה הניסיון לזהות את החומרה של דלקת ריאות בעזרת רשתות נוירונים. הנתונים היו נהדרים, כמיליון חולים שאושפזו בעקבות דלקת ריאות, כ-1000 מדדים רפואיים ושאלת מחקר ברורה – "האם החולה שלפנינו אכן דורש אשפוז?". מצד אחד, אם יש סכנה להתפתחות של דלקת ריאות חמורה, כדאי מאוד לאשפז את החולה על מנת שיהיה בהשגחה צמודה. מצד שני אם אין סכנה אמיתית, ממש לא כדאי לסכן את החולה בזיהומים – הרי, לבית חולים אתה נכנס בריא ויוצא חולה – וגם אין רצון להקשות על החולה ועל משפחתו ולבזבז כסף לבית החולים.

מדדי הדיוק הניבו תוצאות יפות מאוד, והמודל היה צריך להיות מיושם בבית חולים. במקביל צוות חוקרים אחר ניסה לנתח את התופעה על ידי אלגוריתם אחר ופשוט, המתבסס על מציאת כללים סטטיסטיים בין הפיצ'רים. להפתעתם הרבה, היה כלל אחד מוזר מאוד שבלט: יש אסטמה > סכנה נמוכה להחמרה בדלקת ריאות.

רגע, מה קורה פה? איך זה יכול להיות? זה לא אמור להיות הפוך? אז כן בערך. התברר שכאשר מגיע חולה אסטמה עם דלקת ריאות, יש פרוטוקול מסודר, הרופאים יודעים בדיוק מה לעשות ועושים את זה. זה כמובן לא אומר שהסכנה נמוכה באופן כללי, אלא שכאשר נלקחים לחשבון כל הפרטים, יודעים לטפל בה. ולכן ניתוח נאיבי של הנתונים לימד באופן שגוי כי לחולה אסטמה יש סכנה נמוכה להחמרה בדלקת ריאות.    

עכשיו תארו לעצמכם שמודל רשתות הנוירונים היה מיושם. סביר מאוד להניח שאותו הקשר הסטטיסטי בין אסטמה לסיכון נמוך ימצא. ההבדל העיקרי יהיה שלא יהיה אפשר לזהות אותו, כי הוא יבלע במורכבות של המודל. חולי אסטמה שיבואו עם דלקת ריאות יבחנו, והאלגוריתם ככל הנראה יחליט שהסכנה נמוכה, הם יקבלו אנטיביוטיקה וישוחררו לביתם… זה לא טוב בכלל.

אז אולי הפתרון הוא שנגדיר חריגה במודל, ונחליט שלמי שיש אסטמה, למרות שהמודל מכריע שהוא בסיכון נמוך, נתייחס אליו בתור סיכון גבוה. גישה זו לא ריאלית, כי אם נחריג כל כלל סטטיסטי שנמצא, לא ישאר שום דבר מהמודל. ובכל מקרה, הסכנה הגדולה היא דווקא מדפוסים שנמצאים מתחת לפני השטח שהאלגוריתם הצליח לחשוף. כלומר, יחסית קל לחשוף ולהבין שיש בעיה בכלל של האסטמה, ואפילו מישהו ללא השכלה רפואית יכול להבין שאולי יש פה בעיה. אבל הדפוסים העמוקים שהאלגוריתם מוצא יכולים להיות מסוכנים בדיוק באותה מידה, ואותם לא נוכל לחשוף בכלל.

בפוסט שיתפרסם בהמשך בסדרה זו ניגע באתגר נוסף, שממשיך לעורר שיח וצובר תאוצה – אפלייה והטיה באלגוריתמים, ונתחיל לדבר על מה אפשר לעשות.