1 ביולי 2021זמן קריאה 8 דקות

משבר הרפלקציה

מי חוקר את המחקר? איך בכלל חוקרים ומוודאים שמחקר מהימן? והאם ניתן לסמוך על ממצאים שהתפרסמו? במאמר זה אני מבקשת לחשוף אתכם ואתכן לאחת הטלטלות הגדולות ביותר שחווה מדע הפסיכולוגיה בעת הנוכחית אך עדיין אינו מוכר לרבים/ות וטובים/ות.

"פרויקט הרפליקציות" בחן את מהימנות הפרקטיקה המדעית וגרם לבדק בית רציני בייחוד בעולם המחקר הפסיכולוגי. יש שמתייחסים אליו כמשבר חמור ויש כמשבר קטן, יש כאלה שרואים בו צעד הכרחי בהתפתחות המחקר המדעי ויש שמבקרים אותו. כך או אחרת כדאי להכיר את סימני השאלה שעלו וכן את הצעדים שהחלו להנקט בעקבות משבר הרפליקציה.

"אם הרחקתי לראות, הרי זה משום שעמדתי על כתפיהם של ענקים", אמירה זו של ניוטון מטיבה לתאר את אחד מהקווים המנחים את המחקר המדעי. המדע מבוסס על הצטברות הידע, כך שכל מחקר מוסיף דבר מה לגוף הידע בהתבסס על הידע שנצבר עד כה במחקרים קודמים. אני זוכרת את הפתעתי כשהבנתי לראשונה, בתור סטודנטית למחקר, שאני לא יכולה לשאול כל שאלה מחקרית שעולה על דעתי אלא צריכה להתבסס על סמך הספרות המחקרית הקיימת. השאיפה של המחקר המדעי היא, למיטב הבנתי, להגדיל את מכלול הידע האנושי. בימינו טמון בידי המחקר המדעי כוח רב. זאת מכיוון שהידע המצטבר משרת את האנושות ביצירת כלים ומוצרים או קביעת מדיניות מיטיבה. על כן, קל לראות כמה חשובה היא הידיעה שניתן לבטוח בתוצאות ובמסקנות העולות מהמחקר המדעי. שהרי אם המסקנות הן שגויות אנחנו מסתכנים בבזבוז משאבים רבים, בהם כסף וזמן, ואף מסכנים את בריאותנו ואיכות חיינו. על פי מחקר שנערך ב-2014, 85% מהמשאבים המופנים למחקר מתבזבזים. על מנת להבטיח את מהימנות המסקנות שעולות ממחקר עליו לעבור שיפוט (ולרוב יותר משיפוט אחד) על ידי חוקרים אחרים, כך שהדרך מרגע ביצוע המחקר ועד לפרסומו היא לרוב ארוכה וסיזיפית.

על פי התפיסה המדעית אם נחזור על ביצוע של מחקר, גם במקום אחר או על ידי חוקרים אחרים, נצפה לקבל את אותן תוצאות. פעולה זו המכונה שחזור משקפת את מהימנות המחקר, ועל כן, אפשר להבין מדוע מכונה השחזור "אבן היסוד של המדע". הממצא הבא שהתפרסם ב-2008 שהטיל ספק ביכולת של המחקרים בפסיכולוגיה להשתחזר ובכך, הטיל ספק בתוקף שלהם. "פרויקט הרפליקציות" שנערך על ידי צוות חוקרים ובראשם פרופסור בריאן נוסק, פסיכולוג חברתי מאוניברסיטת וירג'יניה, חשף שרק כ-40% מהמאמרים שפורסמו בכתבי עת מובילים הצליחו להשתחזר.

מה זה שחזור / רפליקציה?

בצורה פשוטה: שחזור משמעו לבצע שוב את המחקר. במחקר המשוחזר חוזרים על שאלת המחקר, המתודולוגיה (השיטה לביצוע המחקר) ואופן ניתוח התוצאות כמו במחקר המקורי. כיום אין דרך חד משמעית לקבוע האם שיחזור הצליח או לא, ולמעשה גם בפרויקט הרפליקציות השתמשו במספר מדדים שונים. השאלה הזו טומנת בחובה שאלה חשובה נוספת: האם בכלל ניתן לשחזר? ברור שלא ניתן לקיים בדיוק את אותו מחקר פעמיים, בשל סיבות רבות החל בזה שאי אפשר לחזור על אותה דגימה בדיוק, יהיו אלו אנשים או עכברים.

אז, מה קורה אם מחקר לא השתחזר?

גם כאן התשובה אינה חד משמעית. ניתן לומר שיש שתי אפשרויות: או שאכן, מאי אלו סיבות, ממצאי המחקר המקורי שגויים, או שממצאי המחקר המקורי אכן קיימים במציאות, אך קיים סיכוי מסויים שנפספס אותם בשחזור. אחת הסיבות לכך שקשה לענות על שאלה זו היא שקיימות מגוון סיבות שיגרמו לכך שמחקר לא משתחזר: יכול להיות שהייתה שגיאה במערך המחקרי המקורי, בהוצאתו לפועל או בניתוח התוצאות שהתקבלו. עם זאת, ייתכן והקושי שצף ב"משבר הרפליקציות" נובע מבעיה מהותית יותר באופן בו מתנהל עולם המחקר המדעי.

מה הם הגורמים שהביאו לכישלון הרפליקציות?

אפשר לחלק את התשובה לשני גורמים מרכזיים: האחד טמון בכלים הסטטיסטים ובאופן העבודה איתם, והשני באופן בו מתנהל עולם המחקר המדעי. נתחיל בפן הסטטיסטי. סטטיסטיקה היא תחום מורכב. מאוד. ולכן חוקרים עשויים להשתמש בו בצורה לא נכונה מתוך חוסר הבנה. שימוש לא נכון ב-P-value, מדגמים קטנים מדי, אופן ההתמודדות עם outliers (דגימות חריגות), דיווח סלקטיבי של הממצאים או של התנאים ששיחקו תפקיד במהלך המחקר, ועוד. אלו ואחרים מובילים לאחוז גבוה של תוצאות חיוביות כוזבות (false positive) – המעידות על גילוי של אפקט שלא קיים במציאות.

אחד מהשימושים הליקויים בסטטיסטיקה זכה לכינוי P-hacking, שמשמעותו בעגה הוא מניפולציה של המידע או של הניתוח שמבוצע, על מנת לקבל p-values מובהק (ערך סטטיסטי המצביע על כך שאכן נמצא אפקט במחקר). למשל, ניתן לבחור מבין מגוון שיטות את הניתוח סטטיסטי היחיד שמראה תוצאות מובהקות עבור הנתונים. ערך הסף הנהוג במדעי החברה שקובע מתי p-value נחשב מובהק הוא 0.05. ערך זה משקף את הסיכוי לטעות בטעות מסוג ביתא שהיא כשאנחנו חושבים שגילינו אפקט שלא קיים במציאות. לכן, אם הנתונים מראים על אפקט מובהק עם P-value הקטן מ-0.05, נוכל להסיק עם רמת ביטחון של 95% שהאפקט אכן קיים. נשמע די מהימן.

אבל כאן נכנסת בעיה נוספת המכונה השוואות מרובות. אם אנחנו חוזרים על אותה בדיקה או על בדיקה דומה מספיק שוב ושוב, אנחנו מגדילים את הסיכוי שנקבל ערך p-value מובהק באחד הניתוחים שלנו (הקומיקס הזה מסביר זאת נפלא). העניין כמובן מסתבך כשחוקרים מבצעים כמה ניתוחים סטטיסטיים אך מדווחים רק על אלו בהם התקבלה תוצאה מובהקת. וזה מחמיר כשבכתבי העת מפרסמים רק מחקרים בהם התקבל אפקט מובהק, כך לקהילה המדעית אין אפשרות לדעת שאולי נערכו עוד חמישה מחקרים ממש דומים שלא מצאו אפקט. מה שמעביר אותנו לבעייתיות באופן ההתנהלות של עולם המחקר המדעי.

במחקר המדעי הרווח מחפשים הבדל בין תנאים שונים ומשווים בין השערת האפס (null hypothesis) להיפותזה שלנו. במסגרת החשיבה הזו, אנחנו מנסים ליצור מערך מחקרי שיתפעל את הגורם אותו אנחנו מעוניינים לבחון. בסופו של דבר, יכולות להתקבל שתי מסקנות על פי הנתונים שאספנו במדגם זה: או שנדחה את השערת האפס, משמע גילינו אפקט בעולם, או שלא נצליח לדחות את השערת האפס. כמובן, אין לנו כל דרך לדעת האם במציאות, כלומר, במדגמים אחרים או בתנאים אחרים, השערת האפס היא נכונה או לא. כיום המחקרים שזוכים לפרסום הם בעיקר אלו שבהם השערת האפס נדחתה, בתקווה שהשערת האפס אכן שגויה.

הציפייה ממוסדות המחקר, מהחוקרים עצמם ומכתבי העת המחקריים הוא לספק תוצאות רבות ומחדשות בתדירות גבוה. בנוסף, התגמול במחקר מגיע על פרסום מאמרים. לכן לפרסום מאמר מתלווים אינטרסיים אישיים כמו רצון להתקדם בתוך האקדמיה, לקבל תקציב למחקר או להגיע לכותרות. "פרסם או היעלם" הוא ביטוי המתאר את התחושה הרווחת בעניין. בנוסף, קיים תגמול מועט על פרסום ממצאים הסותרים את התיאוריה הרווחת. בהינתן תצורת התגמול הזאת, הסיכוי לממצאים שיסתרו את ההיפותזה המקורית נמוכים מאוד. גורם נוסף שמשחק כאן תפקיד, כמו בתחומים רבים וטובים בתרבות המערבית, הוא הכסף. בסופו של דבר חוקרים צריכים תקציבי מחקר כדי להוציא את מחקריהם לפועל, וכתבי העת המדעיים רוצים שיקנו אותם. שני המרכיבים האלה גורמים להטיה אנושית פשוטה: מי רוצה לקרוא על מחקר שלא מצא דבר? מי יממן את המחקר הבא של חוקר שעד כה רק הראה שהתרופה שחקר לא שווה כלום?

עניין נוסף שעולה בהקשר זה הוא הקושי לקרוא תיגר על מידע שהתבסס בתוך עולם המחקר ובטח על כזה שכבר הכה גלים מחוצה לו. קיים קושי לתקן ידע שגוי. האם קונספט לא נכון פשוט דועך עם הזמן באופן טבעי, או שמא יש לעשות פעולות אקטיביות כדי להוקיע אותו מגוף הידע המדעי והאנושי בכלל? באופן כללי נהוג להעריך את מהימנותו של מחקר על פי כמות הציטוטים שיש לו. אך מחקר שנערך בשנים האחרונות מצא כי גם מאמרים על מחקרים שלא הצליחו לשחזר את ממצאיהם (בפרויקט הרפליקציות לדוגמא) ממשיכים להיות מצוטטים. במחקר מסויים אף נמצא כי מאמרים אלו מצוטטים יותר ממחקרים שהצליחו לשחזר את ממצאיהם. נראה כי התופעה חזקה יותר כשמדובר במאמרים שממצאיהם מחדשים או מפתיעים במיוחד. סיבה נוספת שעשויה לגרום לכך היא שרק כ-12% מהחוקרים, שהממצאים שלהם לא שוחזרו, מציינים זאת במאמריהם.

בעקבות בעית השחזור

משבר הרפליקציה אמנם תפס מקום רב בשיח של המחקר במדעי החברה, אך בעית השחזור של מחקרים קיימת גם בתחומים נוספים כמו ביולוגיה ורפואה ובתחומים רבים נוספים. בניגוד לפסיכולוגיה, ברובם המכריע של התחומים האחרים טרם נעשה מחקר מקיף ונרחב שבוחן את מידת הצלחת הרפליקציות. חשוב לציין כי"פרויקט הרפלקיציות" אינו חף מביקורת. כך למשל, עלתה ביקורת על אופן הביצוע של השחזורים, והאם הם אכן נעשו בדומה מספיק למחקר המקורי. לאחריו נעשו עוד כמה פרויקטי רפליקציה שהגיעו לאחוזי שחזור הנעים בין 30% ל-85%. כך שנראה כי התובנות של הפרוייקט תקפות גם כלפי עצמו ועלינו להיות חשדניים גם במסקנות העולות ממנו.

לשמחתנו, בעולם הפסיכולוגיה היישירו מבט אל המשבר, וטיכסו מגוון שיטות שנועדו למנוע את הישנות המשבר ולהבטיח לנו מדע אמין יותר, הרבה יותר. כך למשל, כיום יש תהליך "רישום מראש" (pre-regestration) בו החוקר מצהיר בטרם ביצוע המחקר מה ההיפותזה שלו, מהו מהלך הניסוי ואף באיזה אופן ינותחו התוצאות. רק לאחר מכן המחקר יוצא לפועל. בנוסף, יש מגזינים המתחייבים לפרסם את המחקר בין אם התקבל אפקט או לא, ואף קיימים כתבי עת שמתחיביים לפרסם אחוז מסויים של מחקרי רפליקציה, שכל מהותם שחזור של מחקר אחר. בהקשר זה, שיטת התגמול המחקרית טרם השתנתה בצורה משמעותית אם כי נראה שהיא בתהליכי שינוי. עד כה, לרב, חוקרים מתוגמלים יותר מדי על פי תוצאות המחקר ופחות מדי על פי טיבו של המערך המחקרי שמתחשב שאלה הנשאלת במחקר, במורכבות המדידה ובאיכות הביצוע.

גם בפן הסטטיסטי, עולם המחקר הפסיכולוגי למד מטעויותיו ופיתח כללים שלא יאפשרו p-hacking. ב-2017 חוקרים העלו הצעה להזיז את ערך הp-value מ-0.05 ל-0.005 מה שיקטין משמעות את אחוז ה-false positive. כמו כן, ייתכן שהמעבר לסטטיסטיקה בייסיאנית (שקצרה היריעה מלהרחיב עליה בכתבה זו) יפתור בעיות סטטיסטיות מהותיות. הועלו גם הצעות להכניס ביצוע רפליקציות לקורפוס הלימוד של המחקר המדעי. וכן, עצם העלאת המודעות לסוגייה היא כבר צעד משמעותי בדרך לפתרון.

גיוון, שיתוף ושקיפות

נקודה נוספת שאליה נחשפתי במהלך שנותי באקדמיה היא שהנבדקים עליהם מתבססות המסקנות של מחקרים רבים בתחומי מדעי החברה, הם לרוב סטודנטים למדעי החברה. לשמחתנו, בשנים האחרונות ביצוע מחקרים באינטרנט מתחיל לצבור תאוצה. היתרון הגדול בכך הוא גם היכולת להגיע לכמות גדולה של אנשים בקלות יחסית, ובעיקר היכולת להגיע למגוון גדול של אנשים. ויותר מכך, יחסית קל לשחזר אותם. עם זאת, גם מחקרי online לא חפים מקשיים והטיות המקשים על ביצוע מחקר מהימן. חלות התקדמויות במחקר גם לגבי היכולת לשחזר מחקרים, כאשר נכון להיום המגמה היא לשתף באופן חופשי באינטרנט את הדאטא הגולמי של המחקר ואת השיטה (המטלה עצמה) בה נעשה שימוש במחקר. בנוסף, חלה התקדמות בהנגשה של הידע (כמו למשל Open Science Framework) וכן מתפתחת גישה מחקרית חדשה הדוגלת ב "triangulation", שילוב בין מתודולוגיות מחקריות שונות למענה על אותה שאלה מה שיאפשר תמונה מלאה של התופעה הנחקרת.

אין ספק שהשקיפות הכרוכה בתהליך היא בעלת ערך רב. אני מקווה שאנחנו מתקרבים ליום בו מאמרים מדעיים וכן המערך המחקרי יהיו פתוחים ונגישים לקהל הרחב. בעיניי מפתח חשוב לשינוי משמעותי בעולם המחקר הוא סבלנות. יש לתת לגוף הידע זמן להבנות. לשים פחות משקל על ממצא בודד, במיוחד אם הוא יוצא-דופן ממה שידוע לנו עד כה. כך או כך, נראה שיש הסכמה כי כדי שהמחקר ישרת את מטרתו נאמנה, על המעורבים בכך (הסטודנטים, החוקרים והמו"לים, בין השאר) להתמקד באיכות אופן הביצוע של המחקר ושאלת המחקר ולא רק על מידת החידוש של ממצאיו.

הטלת ספק

האם משבר הרפליקציה הוא רק עוד שלב בתהליך השחזתו של המחקר המדעי, או שמא הוא מצביע על בעיה מהותית? בנסיון להשיב על השאלה הזו ראשית עלינו להסכים על מדד שיהווה מבחינתו מהימנות מספקת: האם נסתפק בידיעה ש 70% מהמחקרים מהימנים בשביל להתבסס עליהם או שמא לא נתפשר על פחות מ-99% הצלחה? אנחנו לא בהכרח יודעים לענות על השאלה הזו כרגע וכדי לענות עליה יש צורך בשיחזורים של מחקרים רבים מה שידרוש הפנייה של משאבים בהתאם. נראה כי קיים מתח במדע בין הרצון להתרחב לרצון להתבסס. היום הכף נוטה לכיוון ההתרחבות ולי נראה שהגיע הזמן למצוא נקודה מאוזנת יותר בין השניים. במיוחד מכיוון שכדי להתרחב ולצמוח לגילויים חדשים שיטיבו עם האנושות, יש צורך בבסיס ידע מהימן ויציב.

בסופו של דבר, "משבר הרפלקציה" לא אומר שהמחקר המדעי עד כה לא מהימן, אלא מאפשר עליית מדרגה מחקרית. במידה ומחקר לא משתחזר, המסקנה אינה להתעלם מהממצאים, אלא להתמודד עם נתונים אלה המציבים בפני החוקרים עוד סימני שאלה. משבר הרפליקציות מאיר את עינינו לגבי הגבולות של אמיתות הממצאים: האם הממצא נכון תמיד וישתחזר גם בתרבויות אחרות, בקבוצות גיל שונות ובפלטרפורמות נוספות? למשל, יכול להיות שנמצא אפקט כתוצאה ממטלה שתבוצע באופן פיזי במעבדה, אך לא נקבל אפקט כשהנבדקים יבצעו את אותה מטלה באינטרנט. על כן, אי ההשתחזרות של הממצא המקורי לא בהכרח מבטלת אותו מכל וכל אלא מעלה שאלות לגבי האוניברסליות שלו.

המדע במהותו מתפתח מתוך שגיאות. כמו שהיטיב לנסח פופר, אנחנו לעולם לא נדע מהי האמת - אנחנו רק יכולים להתקרב אליה באמצעות שלילת כל מה שהוא לא האמת. בעיניי, גילוי המחדלים מהווה אות כבוד למדע בכלל ולתחום המחקר הפסיכולוגי בפרט. יש לקוות שהמודעות לבעיות במחקר המדעי תגדל ותתרחב מעבר למחקר במדעי החברה. בעיניי, זה צריך להיות נושא חובה שילמדו כל סטודנט וסטודנטית לתואר ראשון. ובסופו של דבר, כשאנחנו קוראים או שומעים על מחקר או כתבה שמתבססת על מחקר כלשהו, יש לזכור שהמציאות היא מורכבת ושהמדע לא חף מטעויות, ולכן עלינו לנהוג כמו חוקרים טובים וראשית, להטיל ספק.

מקורות:

Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science. Science. 2015 Aug 28;349(6251):aac4716. doi: 10.1126/science.aac4716. PMID: 26315443.
Nosek, B. A., & Bar-Anan, Y. (2012). Scientific utopia: I. Opening scientific communication. Psychological Inquiry, 23(3), 217–243. https://doi.org/10.1080/1047840X.2012.692215
Serra-Garcia M, Gneezy U. Nonreplicable publications are cited more than replicable ones. Sci Adv. 2021 May 21;7(21):eabd1705. doi: 10.1126/sciadv.abd1705
Ioannidis JP. How to make more published research true. PLoS Med. 2014 Oct 21;11(10):e1001747. doi: 10.1371/journal.pmed.1001747

שירה ניב היא סטודנטית בתוכנית המצטיינים על שם "עדי לאוטמן" ומאסטרנטית במעבדה לפסיכולוגיה קלינית-חישובית באוניברסיטת תל-אביב. היא חוקרתלמידה של היכולת להשהות באמצעות שימוש באלגוריתמים של reinforcement learning.

בזמנה הפנוי מתרגלת מדיטציה ועוסקת בלימוד רוחני ובזמן שעוד נשאר אוהבת מאוד לצאת למסעות בעולם.

משבר הרפלקציה

מה זה שחזור / רפליקציה?

אז, מה קורה אם מחקר לא השתחזר?

מה הם הגורמים שהביאו לכישלון הרפליקציות?

בעקבות בעית השחזור

גיוון, שיתוף ושקיפות

הטלת ספק

פוסטים קשורים

1 Comment

GET IN TOUCH

We'd love to hear from you

Please check out our Privacy Policy and Ethical Code of Conduct page