ماذا حدث للمخاطرة في العلوم؟

هذه نسخة معدلة من منشور مدونة بواسطة مجموعة يرأسها صديقي المقرب وزميلي الدكتور باتريك ماكنايت (الذي يشارك في قيادة مختبر الرفاه الخاص بي). بدأت مجموعة القياس ومنهج البحث والتقييم والإحصاء (MRES) مدونة حول القضايا التي تمس أساس العلم.

نثير انتقادات واحدة حول مجال علم النفس في هذه المدونة - معظم الأسئلة والفرضيات التي يتم اختبارها من قبل العلماء ضعيفة وغير مثيرة للاهتمام وجبانة. ندرج أنفسنا في الفئة من الأشخاص الذين ينتجون عملاً يختبر الفرضيات الجبانة. نحن نقدم بعض الاقتراحات للدفع نحو العلماء والتخصصات الشجعان. يتم تجاهل هذا الموضوع في مناقشات أزمة التكرار في علم النفس، خصوصا علم النفس الاجتماعي و علم الأعصاب. ولكن ربما لا يوجد أزمة تكرار على الإطلاق... اقرأ.

هناك تقليد قديم في العلوم التجريبية لتعزيز المعرفة العلمية من خلال توليد الفرضيات التي يمكن اختبارها وتزييفها ؛ والأساس المنطقي أكثر أهمية اليوم مع الدفع الناشئ للتكرار. العلماء الآن عقد النسخ المتماثل باعتباره جيب راسخعدمللمساهمة العلمية. النتائج التي يمكن تكرارها في مختبرات أخرى من قبل علماء آخرين لها قيمة أكبر من تلك التي لا يمكن تكرارها. يبدو المنطق سليمًا حتى نبدأ في فحص ما يشكل إمكانية التكرار وما إذا كان احتمال التزوير ثابتًا عبر جميع الدراسات. نناقش هنا أن التزوير - أثناء مناقشته باستفاضة على مدى قرون - يبقى في صميم مشكلة النسخ المتماثل.

الدراسات التي يمكن تزويرها بسهولة (أقل خطورة) يسهل تكرارها في حين أن الدراسات الأخرى التي تفشل في تلبية هذا المعيار "السهل" تقل فرص تكرارها. في بعض الحالات ، قد يكون التزوير اختبارًا أفضل للمساهمة العلمية. نقوم بتوضيح هذه النقاط أدناه ونقدم فكرة عن كيفية تحديد احتمالية التكرار - نستبدل هذا الاحتمال بمصطلح أبسط: المخاطرة. هدفنا هو مساعدة الباحثين ، وخاصة الطلاب والعلماء الشباب ، على فهم أفضل لما يطلبونه ويختبرونه من خلال دراساتهم البحثية. بالإضافة إلى ذلك ، نريد أن نساهم في عملية المراجعة ونساعد في دفع المجال نحو عمل أكثر تأثيرًا وتأثيرًا.
نبدأ بسؤال بسيط: هل أسئلة البحث تنبؤات محفوفة بالمخاطر حقًا؟ فكر في تشبيه وجده طلابي مرحًا وآملًا. أطلب منهم النظر في المخاطر في التنبؤ التالي:

سيفوز فريق نيويورك يانكيز في بطولة العالم.
المشكلة في هذا التنبؤ هي أنه لا يوجد قيود زمنية. لذا إذا فاز فريق اليانكيز ببطولة العالم عام 2026 ، فزت! من الجدير بالذكر ، فاز فريق اليانكيز بـ 27 بطولة عالمية حتى الآن - أكثر من ضعف انتصارات فريق المركز الثاني وثلاث مرات فوز فريق المركز الثالث في تلك الفئة. باختصار ، اليانكيز رهان جيد. لنفترض أنني أردت قصر توقعاتي على شيء أفضل في الوقت المناسب بقول ...
سيفوز فريق الدوري الأمريكي ببطولة العالم في عام 2018.
يوجد حاليًا 30 فريقًا في دوري البيسبول في الولايات المتحدة - 15 في الدوري الأمريكي و 15 في الدوري الوطني. توقعاتي الجريئة على ما يبدو أن فريقًا واحدًا في الدوري الأمريكي (N = 15) سيهزم فريقًا واحدًا في الدوري الوطني (N = 15) في عدد من الألعاب غير المؤكدة (أفضل 7 مباريات). يمكننا أن نكمل تقدير التنبؤ هذا - على الأقل فيما يتعلق بالمخاطر - من خلال البحث عن احتمال فوز فريق من الدوري الأمريكي في بطولة العالم في الماضي. فاز الدوري الأمريكي 64 من 112 بطولة العالم (ص = 0.57 أو 57 بالمائة). تساعدنا هذه القيم على تقدير أفضل لمدى خطورة التنبؤ. هناك توقع أكثر خطورة هو أن أذكر عدد الألعاب المطلوبة لتسوية السلسلة:
سيفوز فريق الدوري الأمريكي ببطولة العالم في عام 2018 في 6 مباريات.
كلما أصبحنا أكثر تحديدًا ، تزداد الطبيعة الخطرة لتنبؤنا ، ولكن هذه الزيادة يمكن حسابها بسهولة من خلال فهم احتمالات كل عنصر موصوف في التنبؤ. هناك 15 فريقًا في كل دوري ، لذا فإن التنبؤ الأول يعطي احتمالية 0.5. من خلال زيادة خصوصية توقعنا لعدد الألعاب ، نحتاج إلى معرفة عدد السلاسل التي تم تحديدها في 6 مباريات وكم عدد السلاسل التي فاز بها فريق الدوري الأمريكي. هذه الإحصائيات متاحة لنا عبر الإنترنت ، لذا لدينا القدرة - إذا اخترنا ذلك - على البحث عن القيم وتقييم احتمال أن يكون توقعنا صحيحًا. تستند جميع هذه الاحتمالات إلى بيانات سابقة ولا تقدم بأي حال من الأحوال احتمالات دقيقة للقيم الحالية أو المستقبلية.

كيف ترتبط البيسبول بالعلم؟
توفر لنا لعبة البيسبول نظيرًا رائعًا للعلوم. نستخدم الأمثلة أعلاه لأنها تضع الأساس لنقطتنا الرئيسية - يجب إخضاع العلماء لمعايير اختبار محفوفة بالمخاطر أننا نثبت في الواقع مدى جرأة توقعاتنا ومدى توافق النتائج التي توصلنا إليها مع "Whoa!" او "ميه" التصنيفات. الآن ، أظن أن معظم توقعاتنا تقع في المجموعة الأخيرة. معظم تنبؤات العلوم الاجتماعية والسلوكية ليست خطيرة للغاية - على الأقل ليست تلك التي صيغت على النحو التالي:
نتوقع أن X يتنبأ بشكل كبير بـ Y.
إذا أنتج X ارتباطًا كبيرًا (p <.05 y>نحن نتوقع X بشكل كبير ويتنبأ بشكل إيجابي Y.
يتضمن هذا التنبؤ على الأقل اتجاهًا. العلاقات الإيجابية فقط هي التي تكسب الاحتفال ، ومع ذلك يبدو أن ذلك لا يزال أقل بكثير من توقع محفوف بالمخاطر. ماذا لو تمكنا من إخضاع أنفسنا وزملائنا لتوقعات أكثر خطورة مثل:
نتوقع أن X تتوقع بشكل كبير Y مع ارتباط 0.5 أو أفضل.
ويترك لنا هذا التنبؤ المحفوف بالمخاطر اختبارًا واضحًا ومحفوفًا بالمخاطر ، ولكن كيف تظل المخاطر غير واضحة. نعم ، إن التنبؤ الأخير هو بالتأكيد أكثر خطورة من الأول ولكن ما مدى خطورة ذلك؟

اختبارات محفوفة بالمخاطر في العلوم
ماذا يعني إجراء اختبار محفوف بالمخاطر؟ أمضى نوربرت كير العقدين الماضيين يحثنا جميعًا على ذكر فرضياتنا مقدمًا دون النظر إلى بياناتنا. ووصف الانتهاك "HARKing" أو الافتراض بعد معرفة النتائج. سوف يدرك أولئك المطلعون على عمله على الفور أن HARKing يؤثر على خطر الاختبار. إذا علمنا أن النتائج ستكون واضحة من بياناتنا ، فلا يوجد اختبار. لا يمكن استخدام الأدلة لبناء الفرضية. علاوة على ذلك ، نحتاج إلى إجراء اختبار يشير إلى فشل الفرضية. تقدم الإحصائيات تلك القدرة بدرجات متفاوتة وليس لدينا نية في الخوض فيها الجدل قيمة ف. يكفي أن نقول أن كل أداة لها قيود.
شاغلنا الأساسي هنا هو أننا نريد فرضيات لتوفير خصوصية أكبر مع تراكم الأدلة. على غرار أمثلة البيسبول أعلاه ، قد نجد أن برنامج البحث ينتج عددًا غير متناسب من النتائج التي تكون في الاتجاه الإيجابي (على سبيل المثال ، حصلنا عليها ، يرتبط الامتنان بشكل إيجابي بزيادة الرفاهيةحان الوقت للمضي قدمًا والحصول على مزيد من التعقيد مع الأسئلة المطروحة); وبالتالي ، الفرضيات الاتجاهية ليست كافية. مع زيادة الأدلة في مجال التحقيق ، نحتاج إلى خصوصية كبيرة في تنبؤاتنا. نتوقع أن تكون الفرضيات مستقلة عن الأدلة ، وأكثر تحديدًا من الفرضيات السابقة ، ومناسبة للإجراء الإحصائي المستخدم لاختبارها. بعبارة أخرى ، يجب أن تكون التنبؤات أو الفرضيات التي نذكرها أثناء اكتسابنا المزيد من الأفكار حول الظاهرة أكثر تقييدًا وأكثر دقة. فقط من خلال تضييق نطاق تنبؤات أكثر تحديدًا يمكننا أن نتعلم ما يكفي لضمان المزيد من الاستقصاء في هذا الاتجاه.

بعض النقاط حول تنبؤات النقاط
كتب Paul Meehl عدة مرات أن العلم النفسي يحتاج إلى التحول نحو تنبؤات النقاط وبعيدًا عن الفرضيات غير الاتجاهية. هذه "التنبؤات النقطية" هي اختبارات محفوفة بالمخاطر تزيد من فهمنا للتقديرات - استقرارها وقابليتها للتكرار وربما صحتها. سقطت مكالمة مييل في آذان صماء ، أو ربما سمع المستمعون نداءه وتجاهلوها لأسباب مختلفة بما في ذلك الجمود أو الدفاع أو حتى الخلاف. إليك بعض النقاط التي تستحق التفكير فيها:
النقطة 1: قد لا تكون الدقة العالية مبررة في العلوم النفسية. أحد المجالات التي قد نختلف فيها جميعًا هي الدرجة التي يمكن أن يستفيد منها علم النفس من هذه التقديرات الدقيقة. ربما ليس لدينا البيانات ولا النظريات التي تبرر التنبؤات الدقيقة. نحن نمنحك خط العرض هذا ولكن واجهه ...لماذا لا تحاول؟ من السهل جدًا الرد ببساطة "أشك في أن الدقة موجودة في العلوم النفسية إلى هذا الحد تقديرات النقاط يمكن تبريرها. "بدلاً من الشك في التوقعات النقطية ، افتح عقلك على إمكانية. اعتبر الدقة عملية تكرارية. من المؤكد أن العلوم النفسية قد تطورت بشكل كافٍ للابتعاد عن الاختبارات غير الاتجاهية. كم يتطلب كذلك محادثة جادة.
النقطة 2: قد تأتي الاختبارات الدقيقة والخطيرة والتنبؤات بالنقاط بأشكال عديدة. لا توجد معايير تنص على تقديرات النقطة الدقيقة ولكن يجب أن نحاول تقديم كل فرضية أو توقع بحيث تصبح تنبؤاتنا أكثر خطورة أثناء تقدم معرفتنا. فكر في اختبارات الخطر البديلة لتقديرات النقطة الدقيقة:

1) اختبارات نظرية متنافسة حيث تحصل نظريتك على اختبار مباشر مع نظرية بديلة متباينة (على سبيل المثال ، وهو التفسير الأفضل لسبب رغبة الناس في تعزيز احترام الذات - نظرية إدارة الإرهاب ، نظرية تقرير المصير ، أو نظرية مقياس السوسيومتر?).

2) إحصاءات إعادة التشكيل (على سبيل المثال ، تقديرات التمهيد أو السكين) التي توضح مدى اعتماد نتائجك على ملاحظاتك.

3) حذف التنبئات ذات الصلة نظريًا أو تضمين تنبؤات غير ذات صلة لإثبات استقرار تقديراتك.

4) عتبات التباين المحسوبة (R-squared) التي من شأنها تحديد ما تراه مكاسب علمية مفيدة.

5) اختبار مستقل لنظريتك من قبل مجموعة خارجية قامت بتحليل بياناتك دون أي معرفة بتفضيلاتك - فقط معرفة النظرية التي يتم اختبارها.

كل من هذه الاختبارات هي بمثابة اختبارات أكثر خطورة مما لدينا اليوم.
النقطة 3: لا توجد مكاسب حقيقية في العلم تأتي مجانًا أو بدون تكاليف. يجب علينا بذل جهد كبير لتحقيق مكاسب صغيرة في العلوم. يعلمنا التاريخ أن يشير لنا مرارا وتكرارا. في الوقت الحالي ، نحتاج إلى بذل جهد ضئيل لإنتاج مكاسب خيالية - ليس مكاسب حقيقية في حد ذاتها ولكن الوهم بأن لدينا معرفة متقدمة (هنا هي الدراسة رقم 3867 التي تظهر أن الأشخاص المتفائلين يؤيدون الشعور بالرضا عن حياتهم). نحن نطلب المعايير التي تتطلب جهدا كبيرا - وهي نقطة نعترف بها ونقدرها. عدد المنشورات لكل شخص سينخفض ​​بلا شك. قد تكون سيرتنا الذاتية أقصر (نقطة سنعود إليها في المستقبل) ولكن من الأسهل فهمها فيما يتعلق بمساهماتنا ؛ قرأت عن بعض المقالات الرهيبة على سيرتي الذاتية. قد تؤدي هذه الأنواع من الاختبارات المحفوفة بالمخاطر إلى حالات فشل أكبر ولكن يجب أن تكون تلك الإخفاقات مفيدة. يجب أن نتعلم بينما نمضي قدمًا (أو جانبًا ، أو للخلف ، أو أي اتجاه آخر). مكاسب المعرفة والوضوح في علمنا تقف كالثروات التي قد نحصدها مع الاختبارات الأكثر خطورة. يستحق كل هذا العناء؟ نعتقد ذلك.
أزمة التكرار؟
نحن نرى أنه لا يوجد تكرار أزمة. بالتأكيد ، لا تتكرر بعض التنبؤات. ربما فشلهم في التكاثر يعتمد على عوامل عديدة بما في ذلك أخذ العينات ، والصك ، و التبعيات الإحصائية التي تفشل في التعبير عنها من قبل الباحثين الأصليين الذين نشروا لأول مرة تأثيرات. والأكثر من ذلك ، أن العلماء الاجتماعيين والسلوكيين يكررون نفس الفرضيات القديمة المتعبة ذات "الأهمية" غير الاتجاهية دون اعتبار كبير لتقدم معرفتنا الجماعية. يجب أن نلتزم بمعايير أعلى من خلال زيادة مخاطر اختباراتنا وتنبؤاتنا وفرضياتنا.

نعتقد أن هناك قضايا تتطلب الأولية انتباه. نحن بحاجة إلى إصلاح كيفية بناء العلم من قبل المحققين الأوليين قبل معالجة قدرة مجموعة ثانية تحاول التكرار. هنا عينة من القضايا:

1. التوقعات التي يتم إجراؤها (الهدف من مشاركة المدونة هذه)
2. الاعتماد المفرط على طلاب الكليات عندما لا يكون لهم صلة بالموضوع قيد الدراسة. الآن، إذا كنت مهتمًا بالعدوى المزاجية ، فإن دراسة زملائك في الغرفة مثالية. إذا كنت مهتمًا بدراسة الثقافة المربوطة ، فإن دراسة طلاب الجامعات مفيدة بسبب المعدل الأساسي المرتفع للنشاط مقارنة بعامة السكان. إذا كنت ترغب في الإرشاد ، طلاب الجامعات في مختلف الأندية رياضات والموظفين الذين يوجهونهم مثاليون
3. الإفراط في الاعتماد على تدابير الموارد المنخفضة بدلاً من أفضل التدابير. أنا أموت من أجل شخص ما لإنشاء مقياس بديل للتأثير في التصرف لجدول التأثير الإيجابي والسلبي أو مقياس موجز للتأمل في المزاج. هل سبق لك أن نفذت نموذجًا فكريًا بصوت عالٍ ، وطلبت من الناس الإبلاغ عن أفكارهم أثناء الإجابة عن أسئلة حول الصفات العاطفية؟ يقدم الناس مجموعة متنوعة من الأفكار البعيدة عن التقاط المزاج التصحيحي.

يمكن معالجة القضايا المتعلقة بجودة العلوم وتكرار النتائج في وقت واحد. ومع ذلك ، هناك ميزة في التركيز أولاً على أفضل الممارسات في أخذ العينات ومنهجية البحث والتحليلات الإحصائية والقوة الإحصائية في التحقيقات الأولية. ثم يمكننا التركيز على النسخ المتماثل والتعميم.من المؤكد أن الدفعة الحالية للتسجيل المسبق والشفافية والعلوم المفتوحة ستساعد.

فما رأيك؟ هل تعتقد أنه من خلال الدعوة إلى اختبارات أكثر خطورة ، قد نتعلم المزيد من جهودنا؟ نريد أن نعرف منك. أخبرنا عن أفكارك.


شكر وتقدير
تمت كتابة مشاركة المدونة أعلاه بواسطة باتريك إي. ماكنايت بمساعدة الكل مجموعة MRES. ناقشنا هذا الموضوع خلال عدة اجتماعات. حصل أولئك الذين ساهموا في العمل المكتوب على الائتمان المناسب أعلاه ولكن هنا قائمة أبجدية بالمساهمين الرئيسيين (التابعة لجامعة جورج ميسون):
دان بلوك - متدرب في علم النفس السريري في نورث وسترن
ديفيد ديسباتو - خريج علم النفس السريري طالب
سيمون إركوف - خريج العوامل البشرية
أماندا هاروود - خريج العوامل البشرية
تود كشدان - أنا
نيك خليج - علم النفس الجامعي يكرم الطالب

سام مونفورت - خريج العوامل البشرية

دكتور تود ب. كشدان هو متحدث عام ، وعلم النفس ، وأستاذ علم النفس وكبير العلماء في مركز النهوض بالرفاهية في جامعة جورج ميسون. كتابه الأخير هو الجانب الصاعد من جانبك المظلم: لماذا أن تكون ذاتك بالكامل - وليس فقط ذاتك "الجيدة" - تقود النجاح والوفاء. إذا كنت مهتمًا بترتيب مشاركة أو ورشة عمل ناطقة ، قم بزيارة toddkashdan.com