Data? Science!

בלוג על הפילוסופיה של עיבוד נתונים, ועוד כמה נושאים שוליים

ברוכים הבאים לבלוג Data? Science! שם הבלוג נובע ממה שלדעתי מהווה מיתוג מחדש של סטטיסטיקה תחת השם המפוצץ "מדעי הנתונים". שם הבלוג בא לחדד שמרבית הדברים שיכתבו פה, הקשורים לסטטיסטיקה ועיבוד נתונים, יהיו על המדע והמתודה מאחורי השיטות לעיבוד נתונים ולא בהכרח יעסקו בנתונים לכשעצמם. וגם את זה אני לא מבטיח, אבל אשתדל שיהיה מעניין. למען הסר ספק - כל הדעות המובעות בבלוג הן דעותיי האישיות בלבד ואינן משקפות או\ו אינן מטעם אף מוסד שאני עובד בו או קשור אליו בדרך זו או אחרת. הבלוג אינו ממומן ע"י אף גורם ואין לו שום מטרה מסחרית. מקווה שתיהנו מקריאתו לפחות כמו שאני נהנה מכתיבתו. 

פרס נובל למדעי הנתונים

15.10.2021

אמנם אין לי זמן להשקיע בפוסט ראוי בנושא, אבל מצד שני אם אתמהמה יותר מדי - אפספס את הטיימינג. אז בכל זאת, כמה מילים על פרס הנובל שהוענק השנה בכלכלה לאנגריסט ואימבנס (וקארד). אני רוצה להתייחס לחצי הראשון של הפרס של אנגריסט ואימבנס ולאו דווקא בגלל שאנגריסט הוא ישראלי (או חצי ישראלי - אם תרצו), אלא בגלל סוג המחקר שעליו ניתן הפרס. הפרס השנה ניתן על מחקרים ויישומים באקונומטריקה (כלומר, סטטיסטיקה של כלכלנים), ואני מניח שהפרס לא ניתן רק על הצד התיאורטי של פיתוח מודל סטטיסטי להסקה סיבתית אלא גם על מידת ההשפעה של השימוש במודלים הללו על המחקר הכלכלי ב-20+ השנים האחרונות.

חשוב לציין שזהו אפילו לא פרס הנובל הראשון שניתן לסטטיסטיקאים\הסתברותנים\אקונומטריקאים, אלא לפחות החמישי, והפרס השני עבור מודל סטטיסטי להסקה סיבתית (אחרי סיבתיות גרנגר). לעניות דעתי, בניגוד לסיבתיות גרנגר שלמעשה מתייחסת לסוג של סיבתיות ספציפית מאד בסדרות עתיות, הפעם המודל רחב יותר וכנראה שימושי ליותר דיסצפלינות. לראייה שאני לא סתם מנכס את הפרס לסטטיסטיקה, המאמר שהווה משקל חשוב או אולי אף מכריע במתן הפרס השנה הוא מאמר מ-JASA (כתב עת מוביל בסטטיסטיקה). אז אנצל את ההזדמנות כדי להגיד כמה מילים כלליות על בעיית ההסקה הסיבתית ופתרונותיה.


בעיית ההסקה הסיבתית היא ישנה נושנה ולמעשה מעסיקה אותנו משחר ההיסטוריה. עד לפני מאה ומשהו שנה הסקה סיבתית הייתה תחום עיון שהיה שמור בעיקר לפילוסופים. דייוויד יום היה כנראה הפילוסוף המוכר ביותר שעסק בנושא. עם זאת, הסקה סיבתית כתחום מחקר מתודולוגי-אמפירי הוא מאד צעיר. כמה צעיר? על זה אפשר להתווכח, אבל לא אחטא יותר מדי לאמת אם אקבע את נקודת ההתחלה של התחום בצורתו המודרנית במאמר של רובין מ-1974. אבל לא התכנסנו פה לסקירה היסטורית, אלא להסבר מתודולוגי. אז מה כ"כ בעייתי בהסקה סיבתית?



באופן גס, הייתי אומר שאפשר להסיק על קשרי סיבה-תוצאה משני שיקולים עיקריים. האחד תיאורטי-תלוי-תחום. משהו שאנחנו מכירים ממודלים פיזיקליים ויכולים ללכת אחורה עד לפיזיקה הניוטונית (כן, אני יודע שגם אריסטו סיפק הסברים תיאורטיים-סיבתיים לכח המשיכה ולכל העילוי, אבל בואו נתמקד במדע המודרני שעבר כברת דרך מאז). זהו למעשה הגביע הקדוש של המדע המודרני - לתת תיאורייה דטרמיניסטית שמסבירה תופעות בעולם. אבל מה עושים בתחומים קצת פחות אלגנטיים ממכניקה קלאסית. תחומים כמו לדוגמא רפואה? ברפואה עושים ניסויים מבוקרים ואז בעזרת כלים סטטיסטיים מסיקים על קשרים סיבתיים. בוודאי שמעתם כבר מאות פעמים שמתאם לא גורר סיבתיות. אז איך אתם לא מזדעקים מהמחקר הרפואי שמסיק מקורלציות על סיבתיות? האמת, שלא מזדעקים ובצדק. מתאם יכול לגרור סיבתיות במקרים מסוימים. אחד המקרים האלה הוא ניסוי מבוקר שבו ישנה רנדומיזציה לגורם החשיפה. כלומר, כאשר הנבדקים מחולקים באקראי לקבוצת טיפול ובקורת (או לכמה קבוצות טיפול). ההקצאה האקראית היא זאת שמאפשרת לתרגם קורלציה לסיבתיות. המנגנון מאחורי הסיפור די פשוט, אבל לצורך כך נצטרך להבין קודם למה קורלציה לא גוררת סיבתיות באופן כללי ומה אפשר לעשות עם זה.

 


ניקח דוגמא פשוטה. ככל שבית חולים יותר גדול ויותר יוקרתי כך יש בו יותר מקרים של סיבוכים רפואיים ושיעור תמותה גבוה יותר של מטופלים. אם תחשבו קורלציה של, נניח, גודל של בי"ח עם שיעור תמותת מטופלים, תגלו מתאם חיובי, ואולי תתפתו להסיק מכך שגודל בית החולים גורם איכשהו לתמותת חולים. כמובן שמסקנה כזאת תהיה טיפשית, ועל זה בדיוק מזדעקים כשאומרים שקורלציה לא גוררת סיבתיות. ההסבר למתאם יכול להיות שככל שבית חולים יותר גדול הוא נוטה לקבל מקרים קשים יותר לטיפול. בזמןשמטופלים עם שפעת ונזלת ילכו לקופ"ח בקהילה או לבית חולים מקומי קטן, לבתי החולים הגדולים יגיעו מטופלים במצבים רפואיים יותר מסובכים שאילו היו נשארים בבית החולים האזורי לא היו מטופלים כראוי. כלומר, בלשון סטטיסטית, יש לנו משתנה מתערב שהוא חומרת המצב הרפואי שגם משפיע לאיזה בית חולים יגיע המטופל, ומצד שני גם מגדיל את סיכויי התמותה שלו. ומכאן, אם נתעלם מהמשתנה הזה, ונחשב קורלציה בין גודל לשיעור התמותה, נקבל שטויות משום שהקורלציה "מזוהמת" ע"י חומרת המצב הרפואי. אבל זה מקרה פשוט. אם נשלוט מבחינה סטטיסטית על חומרת המצב הרפואי, משתנה שהוא סה"כ מדיד במידה סבירה, נוכל שוב לנשום לרווחה, לחשב קורלציה ולהסיק ממנה על קשרים סיבתיים. אבל מה קורה כשאנחנו לא יודעים מה המשתנה המתערב הזה או שלא יכולים למדוד אותו? אל דאגה, גם פה יש פתרון שמשתמשים בו משחר הרפואה המודרנית - ניסוי מבוקר. ניסוי מבוקר מקצה בצורה רנדומלית את המטופלים לקבוצות הטיפול. ההקצאה הרנדומלית "שוברת" את השפעת המשתנה המתערב (חומרת המצב הרפואי) על משתנה החשיפה (גודל בית החולים), ובכך שוב מביאה אותנו לחוף מבטחים שבו אפשר לחשב קורלציה ולהגיד שהיא-היא קשר סיבתי. לאן נעלם המשתנה המתערב - אתם שואלים? התשובה היא שלשום מקום, ולמעשה הוא ממשיך להציק לנו, אבל הפעם בצורה של רעש מקרי. כלומר, המשתנה המתערב שעכשיו בלתי-תלוי במשתנה החשיפה, עדיין משפיע על התוצאה (סיכויי התמותה), ולכן גם אם גילינו קורלציה מובהקת בין החשיפה לתוצאה, ייתכן מאד שעלינו על קשר סיבתי מאד חלש, כאשר הקשר החזק נותר לא ידוע או לא מדיד. הריי אין שום סיבה להניח שלתוצאה מסוימת יש רק סיבה אחת, בוודאי לא ברפואה. ולכן המטרה היא בד"כ לא למצוא את *ה*סיבה, אלא לבדוק את עצמת הקשר הסיבתי בין שני משתנים מוגדרים היטב.

 


אבל, מה עושים במדעי החברה? בפרט, בכלכלה, כשלא ניתן (לרוב) לעשות ניסויים מבוקרים? ומושאי המחקר רועשים מדי ומורכבים מדי ולכן לא ניתן למדוד כל משתנה מתערב אפשרי? אז פה הגענו ללב העניין. הסקה סיבתית במקרים כאלה היא על-פניה בלתי אפשרית. ופה השוס הגדול - מסתבר שאפשרית בהחלט! המנגנון שמאפשר אותה הוא משהו שנקרא משתנה אינסטורמנטלי, או "ניסוי טבעי". ועכשיו אתם בטח מצפים שאלך למחקר של אנגריסט על השפעה של גודל כיתה על הכנסה ואספר על הכלל הרמב"מי לקביעת גודל הכיתה. אז לא - בואו נדבר על צריכת אלכוהול והשפעתו על תוחלת החיים. הרי ברור שכל מחקר בנושא הוא כ"כ מורכב ויושפע מכ"כ הרבה משתנים מתערבים שסתם מלאסוף נתונים ולנתח אותם "על עיוור" לא נוכל להגיד דבר חוץ מזה שיש איזשהי קורלציה בין צריכת אלכוהול לתוחלת חיים. עם זאת, למרות שלמחקרים כאלה אין הרבה ערך, הם עדיין נעשים לא מעט ואח"כ בד"כ מתפרסמים בעיתונות הכללית עם כותרות מפוצצות שבד"כ מעוותות אפילו את מעט האמת שנכתבה בהם. אז מה כן אפשר לעשות? להיעזר בגנטיקה. ישנו גן מסוים שמוטציה שלו פוגעת ביכולת הגוף לעכל אלכוהול, ובמידה מסוימת הופכת את הנשא של הגן לאלרגי לאלכוהול. נניח שהמוטציה הזאת היא מקרית לגמרי. ברור שיש קשר בין המוטציה (קיומה) לבין צריכת האלכוהול של האדם, עם זאת גם ברור שהקשר הוא לא חד-חד ערכי. כלומר, ייתכן אדם בלי המוטציה הנ"ל שלא צורך אלכוהול מסיבות אחרות, ואולי אפילו אדם עם המוטציה שלמרות הכל לפעמים צורך כמות מסוימת של אלכוהול. אבל מסתבר שהקשר הזה הוא מספיק טוב לצרכים שלנו.

 


המוטציה הגנטית למעשה מבצעת רנדומיזציה (גם אם לא מושלמת) למשתנה החשיפה (צריכת אלכוהול). וכעת אפשר להשתמש בקשר בין המוטציה לצריכת אלכוהול כדי להסיק על הקשר הסיבתי בין צריכת אלכוהול לתוחלת החיים. המנגנון שעומד מאחור הוא פחות טריוויאלי, אבל לא יותר מדי מסובך. אם נחשב קורלציה בין צריכת אלכוהול לתוחלת החיים - חישוב כזה יביא למסקנות מוטות. אם נחשב קורלציה בין תוחלת חיים ל(קיומה) של המוטציה הגנטית גם לא נגיע רחוק וזאת מהסיבה שאין קשר ישיר בין השניים בהינתן משתנה החשיפה. כלומר, המוטציה לא משפיעה באופן ישיר על תוחלת החיים אלא רק דרך צריכת האלכוהול. מכאן, עבור קבוצת האנשים שמתנזרים מאלכוהול בכל מקרה, המוטציה בלתי תלויה בתוחלת חייהם. אז מה עושים - אתם שואלים? משתמשים במוטציה בשביל לנבא (מבחינה סטטיסטית) את צריכה האלכוהול, ואח"כ משתמשים בצריכה המנובאת כדי לחשב קורלציה בינה לבין תוחלת החיים, והקורלציה הזאת היא כיוון ועצמת הקשר הסיבתי בין צריכת אלכוהול לתוחלת החיים. זה נשמע כמו קסם, אבל הקסם עובד משיקולים אלגבריים מאד פשוטים. (מי שלא יודע אלגברה יכול לדלג על הפסקה הבאה.)

 


המודל הבסיסי ביותר ליצירת התחזית של צריכת האלכוהול הוא רגרסיה ליניארית. בהינתן שהאינסטורמנט (המוטציה) תקף, המשתנה המתערב "נספג" בשגיאה המקרית של מודל שמנבא את החשיפה בעזרת האינסטרומנט. באמדי הריבועים המזעריים השאריות אורתוגונליות לתחזית, ומכאן אורתוגונאליות - בין היתר - למשתנה המתערב. ולכן, התחזית בלתי תלויה במשתנה המתערב וניתן להשתמש בה במקום החשיפה האמתית. במילים אחרות, המוטציה הגנטית יוצרת מעין ניסוי מבוקר טבעי שמאפשר בעזרת קצת עבודה טכנית לדמות את הנתונים הקיימים לנתונים שהיו מתקבלים בניסוי מבוקר  במעבדה, ולכן מאפשר שוב להסיק ממתאם על סיבתיות. זהו אחד מהצדדים הטכניים של מנגנונים להסקה סיבתית שהובילו לפרס השנה. הצד הטכני משום שהשיטה הנ"ל קיימת כבר עשרות רבות של שנים, אבל רק ב-20 עד 30 השנים האחרונות נהייתה פופולארית ושמישה במחקרים אמפיריים בכלכלה ובאפידמיולגיה. זו איננה תופעה ייחודית להסקה סיבתית, הסטטיסטיקאים בינינו מכירים בוודאי את ה-לאסו שכמעט נהיה שם נרדף היום ל"למידת מכונה" היום. השיטה אמנם זכתה לעדנה מחודשת החל משנות ה-90 (בזכות טיבשיראני), אבל היא קיימת משנות ה-50 לפחות. עם זאת, בלי הריענון והאדפטציה שנעשו לה מאז, כנראה הייתה ממשיכה להעלות אבק עוד כמה עשורים לפחות. בקיצור, אולי עוד מעט נוכל לשנות את פרס הנובל לכלכלה לפרס הנובל לדאטא-סיינס וסטטיסטיקה כדי שהשם יהיה נאמן למציאות :)






01.05.2023 

בפינתנו "סמול טוקס עם סלבז" – השבוע הזדמן לי לנהל סמול טוק עם פרופ' מיגל הרנאן (Miguel Hernán). מיגל הוא פרופ' לביוסטטיסטיקה ואפידמיולוגיה באונ' הרווארד, ואחד החוקרים המובילים בעולם בתחום של הסקה סיבתית. מיגל העביר הרצאה כללית על data science. בין היתר הוא ציין את הסוד הגלוי שידוע לכל מי שעוסק בסטטיסטיקה – והוא שמדעי הנתונים זה פשוט מיתוג מחדש של סטטיסטיקה עם קצת תוספת של רשתות נוירונים. בזמנו רבים ציינו שהיו מעוניינים לקרוא פוסט על האקדמייה השוודית. קטונתי מלכתוב פוסט רציני בנושא שכן אני מכיר פינה אחת קטנה מהממסד הגדול הזה. עם זאת, אשמח לספר כמה מילים על תחום המחקר החדש שלי – הסקה סיבתית.

 

אתחיל מהרקע הפורמאלי שלי כי הוא חשוב מאד לסיפור. התואר הראשון שלי הוא בכלכלה וסטטיסטיקה, והשני והשלישי גם הם בסטטיסטיקה. רבים שלא למדו כלכלה בטוחים שבכלכלה לומדים על שוק ההון ועל רכילות של אנשי עסקים. האמת לא יכולה להיות יותר רחוקה מזה. בכלכלה לומדים תיאוריות ומודלים כלכליים. זה תואר עיוני למדי עם כמעט אפס רלוונטיות פרקטית. ההבחנה בין תיאורייה למודל בכלכלה (לפחות כפי שהיא נלמדה בזמנו בתואר הראשון) היא לא קריטית. מהי תאורייה כלכלית? היא קונסטרוקציה כמותנית שמתארת יחסים בין משתנים. לדוגמא, המודל של פון-ניומן – מורגנשטרן דורש פונקצייה שמקיימת מספר אקסיומות שאמורות לתאר קבלת החלטות של סוכן רציונלי (סוכן רציונלי זה כינוי לבנאדם בעגה הכלכלית). ואח"כ כל פונקצייה כנ"ל היא פונקציית תועלת. ולאחר מכן, אפשר ללמוד על תכונות של פונקציות כאלה, כלומר ללמוד על ולנבא כיצד סוכן רציונלי\כלכלי יקבל החלטות בתנאי אי-וודאות. בתורת הפירמה גם לומדים מספר מודלים שמתארים את האופן שבו פירמה מקבלת החלטות. אם לסכם ולפשט את כל העסק; תנו לי פונקציית תועלת או רווח (בהתאמה), אני אמקסם אותה ואגיד לכם מה תהיה בחירת הסוכן או הפירמה. זאת גישה שבמהותה דומה מאד לגישות שאתם מכירים מפיזיקה. כלומר, הרצון או השאיפה לכתוב משוואה שמתארת בצורה מדויקת את האופן שבו מתקבלות החלטות. אם יש משוואה כזאת – היא כבר איננה מודל אלא תיאורייה, אבל אם נהיה צנועים יותר אז אנחנו שואפים למצוא מודל שמתאר בקירוב טוב את האופן שבו מתקבלות החלטות. בשני המקרים, העבודה היא טופ-דאון, כלומר, מניחים אקסיומות שבמקרים רבים אלו אמיתות שאין לגביהם ערעור (או לפחות יש עליהן קונצנזוס) וזורמים משם לבניית המודל הכמותני. הסטטיסטיקה בכלכלה שנקראת אקונומטריקה משמשת כדי לתקף את המודלים האלה (או להפריך אותם). כלומר, הכלים הסטטיסטים לא באים לגלות יש מאין קשרים בין משתנים, אלא לבדוק את נכונותם של מודלים קיימים שנבנו, לרוב, ללא שום נתונים אמפיריים.[1]

לעומת זאת, בחוג לסטטיסטיקה לומדים... סטטיסטיקה. חשוב להבין שסטטיסטיקה היא דיסצפלינה מדעית עצמאית. אפשר, אם רוצים, להתייחס אליה כאל אחד מענפי המתמטיקה השימושית, ומי שמתנגד להגדרה הזאת – אפשר גם כתחום עצמאי לגמרי. זה לא עקרוני לצורך הדיון. מה שעקרוני זה שסטטיסטיקה נלמדת מנקודת מבט מתמטית טהורה ולא תלוית אפליקצייה. כשלומדים סטטיסטיקה בחוג לכלכלה, חושבים ברקע על המודלים הכלכליים או לכל הפחות על נתונים כלכליים. כשלומדים סטטיסטיקה בפסיכולוגיה חושבים בד"כ על נתונים שבאים מניסויים, מבוקרים או לא. אבל כשלומדים סטטיסטיקה לשם סטטיסטיקה אין שום אפליקצייה שקיימת ברקע. ואז הלימודים הם די טכניים. יש בהם דיונים סטטיסטיים על אמדים, קצת אופטימיזציה, קצת תכנות וקצת עבודה עם נתונים בהקשרים שונים. ההקשרים הנלמדים הם חסרי משמעות משום שהנתונים מתחלקים למשתנה\ים תלויים ובלתי תלויים. זהו. מה הם באמת מציינים – לאף אחד לא אכפת. המודלים שמשתמשים בהם הם מודלים סטטיסטיים גנריים ולאו דוקא כאלה שיש להם איזשהי משמעות תלוית תחום. הרגרסיה הליניארית, לדוגמא, היא לא מודל בכלכלה או בפסיכולוגיה, הוא סה"כ קרוב ליניארי של איזשהו יחס בין משתנים בלתי-תלויים למשתנה התלוי.

 

שתי הגישות האלה מתארות את שני הקצוות. אולי בקצה התיאורטי הייתי שם את הפיזיקה כתחום שבנוי על תיאוריות ולא על מודלים במובן עוד יותר עמוק מכלכלה, ובקצה השני - מדמ"ח כתחום שנותן כלים\אלגוריתמים נומריים לחלוטין אפילו בלי צורך לכתוב מודל כלשהו. אבל בכל מקרה, הפער העצום בין הגישות ברור. וכשאלה ההורים האקדמיים שלך – הסקה סיבתית נראת כתחום קצת ביזארי. אל ההסקה הסיבתית נחשפתי ממש בקטנה בסוף הדוקטורט שלי. ואני אגיד את האמת – לא ממש הבנתי מה זה ומה עושים עם זה. אמנם ייעצתי אפילו במחקר אמפירי (אפשר למצוא את שמי בתודות של המאמר הרלוונטי) שיישם מודל סיבתי פשוט במדעי המדינה, אבל התייחסתי לזה הייתה כמו שמתייחסים לספר הפעלה של מכונת כביסה. כלומר, אם תעשה ככה וככה – תקבל בגדים נקיים, או במקרה שלנו – מודל שאפשר להסיק ממנו על קשרים סיבתיים. למה זה עובד? מה זה בכלל אומר קשר סיבתי? לא שלמו לי (אז) לענות על שאלות פילוסופיות, לכן, לבושתי, לא טרחתי לברר.

 

פעם ראשונה שהתחלתי לעסוק בהסקה סיבתית כתחום מחקר ולא ככלים יישומיים זה בפוסט-דוקטורט. ואספר לכם סוד – אם רוצים לחקור משהו ועוד לחדש במחקר התיאורטי שלו, צריך להבין אותו. ולהבין באמת. ומשם יצאתי למסע שממש לא נגמר. תחילה רציתי לשים את ההסקה הסיבתית פשוט כתחום בהסקה סטטיסטית שאני מכיר לא רע. לקח לי כמה זמן להבין שזה צעד שגוי והוא מביא ליותר בלבול מאשר תועלת. אח"כ, אמרתי ביני לבין עצמי, שהסקה סיבתית היא בעצם תלוית אפליקצייה, ואז, במקרה שלי, צריך ללמוד אפידמיולוגיה. אבל זה כיוון שנפסל די מהר כי גיליתי, קצת להפתעתי, שאפידמיולוגיה זה לא כלכלה. אין בה ממש מודלים ותיאוריות אלא בעיקר ניתוח נתונים נצפים בעזרת מודלים סטטיסטיים אגנוסטיים. אז אם מודל סיבתי הוא לא מודל כלכלי או אפידמיולוגי, והוא גם לא מודל סטטיסטי קלאסי – אז מהו לעזאזל?!

 

התשובה שאני אנסה לנסח היא מורכבת, והסיבה היא שהמודל הסיבתי הוא במידה רבה כמו המודלים של תוחלת התועלת - צריך להסתכל מתחת למכסה המנוע. שם נמצאות האקסיומות שאפשרו לבנות את המודל. ובהן המפתח להבנה. במקרה של מודל סיבתי מה שיש מתחת לפני השטח אלה לא בדיוק אקסיומות, אלא תרשים סיבתי. תרשים סיבתי מתאר באופן איכותני קשרים בין משתנים, ובפרט קשרים סיבתיים. באופן דומה לאקסיומות שמתארות תכונות איכותניות של פונקציית תועלת אבל לא כופות עליה מבנה או צורה ספציפית. אז אתם בטח תקפצו ותגידו – אבל אמרת שזה לא כמו בכלכלה והנה אתה מתאר לנו תהליך דומה מאד! אז פה הקאטץ' הגדול. בכלכלה הדיון באקסיומות מסתיים די מהר ועוברים למודל הכמותני. המודל הכמותני הוא-הוא לב העניין. לעומת זאת הסקה סיבתית היא, כמו סטטיסטיקה, אגנוסטית. כלומר, לא מתארת תכונות של פונקצייה של קבלת החלטות, אלא קשרים בין משתנים, יהיו אשר יהיו. אבל, הטענה על הקשרים האלה הרבה יותר חזקה מטענה סטטיסטית רגילה. אם בסטטיסטיקה הקלאסית המודל מתאר קשרים אסוציאטיביים ובמקרה הטוב מקרב אותם לא רע באופן מקומי, בהסקה סיבתית התרשים נותן תיאור גרפי-תיאורטי שאומר לנו מה קדם למה ומה גורם למה. כלומר, יש סיבה, מסובב, יש במובלע ציר זמן ויש במובלע הנחות על אופי המשתנים. ולכן, הסקה סיבתית לא באמת קיימת ללא אפליקצייה, רק שהאפליקצייה יכולה להיות הרבה יותר מגוונת מכלכלה או אפידמיולוגיה. בכלכלה אנחנו עוברים מאקסיומות לפונקצייה שהיא מתארת באופן מושלם קשרים בין משתנים, והיא בד"כ מספקת לנו מודל שאומר – אם תתנו לי את ערכם של המשתנים הבלתי תלויים שבמודל, אני אנבא באופן מושלם (או לפחות בתוחלת) את ההחלטה הכלכלית. כלומר, המודל הוא למעשה תיאור כמותני של תהליך שמייצר נתונים, ולכן אני יכול להשתמש בסטטיסטיקה על-מנת לבדוק האם הנתונים שנוצרו באמת מתאימים למודל. עם זאת, המודל לא זקוק בכלל לסטטיסטיקה ואני יכול לייצר תחזיות בכלל בלי נתונים.

בהסקה סיבתית לא קופצים מתרשים למודל שמייצר נתונים, אלא למודל סיבתי. מודל סיבתי הוא מודל לטנטי! כלומר, הוא מוגדר על משתנים פוטנציאליים שבהגדרה חלקם יהיו קונטרה-אמתיים. משתנים שלפי הגדרה לא נוכל לעולם לצפות בהם. אני אחזור על הנקודה. מודל סיבתי, הכי פשוט שאפשר, מוגדר על משתנים שלא ניתנים לצפייה. הסיבה לא כ"כ מסתורית, אלא נובעת מזה שאנחנו מגדירים אפקט סיבתי על סמך איזשהו קונטרסט (הפרש – לצורך פשטות המחשבה) בין התוצאה עבור פרט שנחשף למשהו אל מול תוצאה של אותו הפרט שלא נחשף לאותו משהו. או במילים פשוטות – אי אפשר לחצות את אותו נהר פעמיים. אם הנבדק שלי אכל בננה והיה מבסוט, אני לא יודע אם הוא היה מבסוט בלי לאכול את הבננה. מצד שני, אם היה מבסוט בלי לאכול בננה ואחרי שאכל בננה נכנס לדכאון – לטעון שהבננה הכניסה אותו לדכאון זו ספקולציה. אולי הוא היה נופל לדכאון בלי שום קשר לבננה. בשביל לדעת מה היה קורה לנבדק שלי בלי היה אוכל את הבננה, אני צריך לחזור אחורה בזמן ולמנוע ממנו את אכילת הבננה. אני אחדד – הבעיה היא לא שאנחנו לא יודעים את המנגנון שמקשר בין צריכת בננות לדכאון, אלא שאנחנו לא יכולים לבודד את השפעת הבננה על הנבדק. אבל פה, חדי ההבחנה, בוודאי שמו לב שאני מבלף. אפשר לבודד את השפעת הבננה בניסוי קליני מבוקר עם רנדומיזציה. הבעיה, שכמו בכלכלה, רוב הנתונים ורוב התופעות שאנחנו מתעניינים בהם לא באים מניסוי מבוקר וגם אם כזה בכלל אפשרי, הוא לרוב לא אתי. כדי להמחיש את הנקודה, נתעניין בהשפעת העישון על הסיכוי לחלות בסרטן ריאות. לצורך כך\ נצטרך באופן רנדומאלי לחלק אנשים למעשנים ולא מעשנים ואח"כ לעקוב אחריהם בתנאיי מעבדה במשך עשרות שנים ולראות מי חטף סרטן ריאות ומי לא. אני מקווה שברור שגם אם זה ישים טכנית, זה לא משהו שייעשה אי פעם. מצד שני, אם היינו כלכלנים, היינו צריכים לבנות עכשיו מודל תיאורטי שמתאר את הקשר בין עישון לסרטן ריאות. מודל כזה הוא יומרני מדי ולא ישים בתהליכים מורכבים שמתרחשים על-פני עשרות שנים במערכת עם המון אי-וודאות והשפעות חיצוניות. אם בכל פעם שהיינו רוצים לבדוק קשר בין משתנים היינו צריכים לבנות מודל תיאורטי שמבוסס על ידע קליני – המדע לא היה מתקדם בקצב שהתקדם והיינו די מהר נתקלים בתקרת זכוכית ובמגבלות הכלים המתמטיים עצמם.

 

[1] לפני שקופצים עליי כמה מחבריי הטובים ביותר שבחרו לעסוק בתחום – אציין שאני בהחלט מודע לכך שאני מתאר פרקטיקות ישנות ומודלים\תיאוריות (כמו הגישה של תוחלת התועלת הקלאסית) קצת מיושנים. ושמאז כהנמן וטברסקי – תורת הצרכן זה שם נרדף לכלכלה התנהגותית מבוססת נתונים ולאחרונה גם ניסויים מבוקרים. אני לא חולק על זה. אני רק מספר כיצד לומדים כלכלה בתואר הראשון (או לפחות למדו עד לא מזמן).

 

המשך יבוא...