P-Value ممنوع
رستم عبداللهی |
۲۸ خرداد ۱۳۹۶

در ابتدا برخود لازم می­دانیم از اینکه مدتی است مطلبی برای خوانندگان این وبلاگ آماده نکردیم از خوانندگان این وبلاگ عذرخواهی کنیم. از اینرو تصمیم گرفتیم در این پست هک کردن P-value و منع استفاده از P-value را برای دوستان توضیح دهیم. شاید در ابتدا با مشاهده این مطلب تعجب کنید که هک کردن P-value به چه معناست و چرا استفاده از P-value در برخی از ژورنال ها منع شده است؟ آیا این P-Value همان ارزش سطح معنی داری است که در آزمایشات خود برای مقایسات از آن استفاده می­کنیم؟ و از طرفی جای تعجب دارد که هک کردن تا چه مرحله­ای پیشرفت کرده است که علاوه بر هک کردن اطلاعات رایانه­ای در دنیای اینترنت و … اینبار پا به عرصه آمار و تحقیقات گذاشته است. ولی جای تعجب ندارد، بله این همان ارزش سطح معنی داری است که در این پست با مفهوم هک کردن آن آشنا می­شویم.

فایل کامل مقاله را از با کلیک بر روی لینک زیر دانلود کنید:

P-value ممنوع و هک کردن P-value

بطور کلی، در رشته­های علوم زیستی مثل زیست شناسی، کشاورزی و … که بیشتر با آمار در ارتباط هستند اولین چیزی که به ذهنشان با دیدن حرف P خطور می­کند، احتمال است، که در تحقیقات از آن در قالب فرضیه صفر به عنوان یک تست معنی­داری برای درک و تفهیم نتایج استفاده می­شود که نتایج حاصل از داده­ها با استفاده از آماره P-value به عنوان یک معیار سنجش مقایسه می­گردد (فیشر، ۱۹۶۲-۱۸۹۰). این P-value، سالیان زیادی است که در مقالات از آن استفاده می­شود ولی گفته می­شود که استفاده از این روش گمراه کننده است. از ماه فوریه سال ۲۰۱۵، ژورنال Basic and Applied Social Psychology اذعان کرد که از این پس مقالاتی که متکی بر روش P-value هستند یا حتی اشاره به این روش کرده­اند در این ژورنال چاپ نخواهند شد. این ژورنال در سال ۲۰۱۴ به محققین، از اینکه رویه آزمون معنی داری  فرضیه صفر (Null Hypothesis Significance Testing Procedure، NHSTP) یک روندی نامعتبر است؛ هشدار داد و در جواب به این سوال که چرا حتی مقالاتی که به P-value اشاره کرده­اند نیز پذیرفته نمی­شوند پاسخ داد:  که” حتی اگر مقالات از بررسی اولیه عبور کنند، مجددا برای بازنگری ارسال و قبل از چاپ مقاله، نویسندگان باید همه بقایای بجا مانده از NHSTP (شامل P-value، t-Value، f-value، عباراتی در مورد وجود یا عدم وجود تفاوت معنی داری بین مطالعات و …) را حذف کنند. ”  در ادامه ژورنال Psychology Journal نیز گزارش p-value در مقالاتش را منع کرده است.

این ژورنال به P-test به عنوان یک آستانه مهم جهت ایجاد تفکر خلاقانه (creative thinking) استناد کرده و دیگر ژورنال­ها را نیز برای پیوستن به این روش دعوت کرد. مدتی پس از آن انجمن آماری آمریکا (American Statistical Association؛ ASA) اعلام کرد که استفاده از آستانه P-value ممکن است نتایج منفی خاص خودش را به دنبال داشته باشد. این انجمن گروه­هایی ۱۲ نفره متشکل از آماردانان معروف را برای بررسی بیانیه­ای در رابطه با مباحث ایجاد شده در مورد P-value تشکیل داد. در ادامه Tom Siegfried در بخش خبری مجله Science به نقل از William Rozeboom گزارش کرد که مطمئنا P-test بزرگترین پروسه گمراه کننده علمی است که تاکنون در بین محققین و دانشجویان مرسوم شده است. همچنین در مقاله­ای که اخیرا در ژورنال PLoS Biology، توسط تعدادی از بیولوژیست­ها در دانشگاه Canberra استرالیا و همچنین دانشگاه Macquarie چاپ شده است؛ عنوان گردیده که محققین در برخی مواقع جهت بدست آوردن P-value مطلوب خود و مقایسات معنی­دار، روش­های آنالیز و آزمایشات خود را تغییرات جزئی (tweaking)  می­دهند تا احتمال چاپ مقالاتشان در ژورنال­های معتبر افزایش یابد و این عمل منجر به افزایش این نگرانی می­شود که نتایج منتشر شده، مثبت کاذب هستند و از طرفی این انگیزش و باور غلط را در بین محققین ایجاد می­کند که برای چاپ مقالاتشان باید حتما نتایج مثبت و معنی داری بدست آورند، مشابه آنچه که امروزه اغلب در دانشگاه­های کشور خودمان و در تمامی رشته­ها توسط محققین تصور می­شود. ناگفته نماند که بسیاری از ژورنال­های معروف و دارای ایمپکت بالا نیز تحت تاثیر آن قرار گرفته و مقالاتی را پذیرش می­کنند که نتایج آن­ از لحاظ آماری معنی­دار باشد. نویسندگان این مقاله نام این تکنیک را P-Hacking نامیدند و بنظر می­رسد که در علوم زیستی عملی رایج باشد. که این نتایج براساس آنالیز بیش از ۱۰۰ هزار مقاله در رشته­های مختلف شامل پزشکی، بیولوژی، روان شناسی و … حاصل شده است. شکل زیر مقایسه عمل P-Hacking را در برخی از رشته­ها نشان می­دهد. حال سوالی که مطرح می­شود این است که بنظر خوانندگان این مطلب، بر اساس شکل زیر و یافته­های حاصل از نتایج Megan و همکاران (۲۰۱۵) کدام یک از رشته­های زیر میزان صداقت بیشتری در یافته­های خود دارند؟

شکل ۱: مقایسه عمل P-Hacking در برخی از رشته­ ها
به نقل از نویسنده اصلی این مقاله (خانم Megan Head) بسیاری از محققین که عمل P-Hacking را انجام می­دهند چندان مقصر نیستند، چرا که آگاه نیستند که استفاده از روش­های خاص گاها باعث می­شود که برخی از نتایج نسبت به نتایج دیگر با اهمیت جلوه داده شوند و این عمل باعث می­شود که نسبت به یافته­های خود که گاها نیز نتایج جدیدی در پی خواهد داشت؛ هیجان زده شوند. بطور کلی برخی از موارد شامل: انجام آنالیز در اواسط آزمایش جهت بررسی اینکه آیا انجام آزمایش ادامه پیدا کند یا خیر، تصمیم گرفتن برای اینکه ببینیم نتایج ما معنی­دار است تا آن­ها را گزارش کنیم یا خیر، حذف داده­های پرت، ترکیب کردن یا جدا کردن گروه­ها بعد از آنالیز و متوقف کردن جمع آوری داده­ها در زمانی که یک P-value معنی دار بدست آوریم و …، خواسته یا ناخواسته منجر به عمل P-Hacking می­شود. یک دلیل دیگر برای انجام P-Hacking تحت فشار قرار دادن محققین جهت چاپ مقالات است، چرا که همان طور که در بالا بدان اشاره شد، متاسفانه ژورنال­های معروف نیز مقالاتی را پذیرش می­کنند که از لحاظ آماری معنی­دار باشند (نتایج مثبت)، و توجه بیشتری نسبت به نتایج مثبت اولیه پیرامون یک موضوع خاص در مقایسه با نتایج منفی بدست آمده در مطالعات بعدی دارند، که قطعا این عمل منجر به پیدایش مقالاتی با نتایج مثبت کاذب (مطلوب محقق) شده و کاهش پیشرفت علمی را در بر خواهد داشت (Megan و همکاران، ۲۰۱۵). به عنوان مثال در مورد تاثیر گذاری یک دارو براساس یافته­هایی که بیشترین میزان P-Hacked در آن اتفاق افتاده است تاثیر پذیری آن را نسبت به آن چه که در واقعیت هست، بیشتر جلوه می­دهد و طبیعتا اثرات سوئی در پی خواهد داشت. به عبارتی دیگر مراحل طراحی آزمایش، جمع آوری، ویرایش و آنالیز داده ها زیاد هستند و p-vale بعنوان آخرین مرحله حرکت از آمار توصیفی به آمار استنباطی می باشد و لذا با حذف p-vale توجه به مراحل مختلف آزمایش، و ویرایش و آنالیز بیشتر خواهد شد. دلیل اینکه امروزه می بینیم خیلی از ژورنال ها داده های خام و یا فیلم های ضبط شده در طول آزمایش را می خواهند. به طور کلی مراحل تولید و آنالیز داده ها در شکل ۲ خلاصه شده اند.

اما اینکه متعهد شویم که چگونه نتایج P-Hacked شده را منتشر نکنیم و برخی سوالاتی که ممکن است در این مورد مطرح گردد، دوستان می­توانند مقاله­ای تحت عنوان زندگی بعد از P-Hack (Life After P-Hacking) که در ۴ مبحث مجزا مطرح شده است را مطالعه نمایند.
برخی نویسندگان استفاده از فواصل اطمینان و یا Bayes Factor را به جای P-value پیشنهاد دادند با این حال سردبیران ژورنال Basic and Applied Social Psychology اظهار کردند که گزارش فواصل اطمینان (Confidence Intervals) همان نقایص استفاده از آزمون های آماری فرض صفر (NHSTP) را دارا هستند. با این وجود استفاده از روش های بیزین و پارامترهای مبتنی بر روش بیزین هنوز مطلوب هستند. اما یک عیب این پارامترها استفاده از فرض لاپلاسین (Laplacian) هست اما راهکارهایی برای کم کردن اثر این نوع اریب پیشنهاد شده است. لذا استفاد از روش های بیزین نه لزومی دارد و نه اینکه منع شده است.
محققان دیگر سوال کرده­اند آیا هیچ روش آماری استنباطی دیگری وجود دارد. جواب خیر بوده و پیشنهاد این بوده که “ما به اماره های توصیفی دقیق و با اندازه موثر بالا نیاز داریم” و همچنین نویسندگان این مقاله ارائه گراف های فراوانی و توزیع داده­ها را اکیداً پیشنهاد کرده اند. لذا باید توجه کرد که مهمترین هدف از منع P-Value این است که به مراحل جمع آوری، اندازه نمونه و آماره های توصیفی توجه بیشتری شود. به عنوان مثال میتوان با تعداد دو تکرار برای دو گروه تیماری تفاوت معنی دار را دید اما آیا استفاده از دو تکرار کافی هست. یا مثال دیگر اینکه اگر تفاوت بین دو گروه آزمایشی شاهد و تیمار برای تولید شیر در گاو ۱۰ گرم باشد و از نظر آماری تفاوت معنی دارد شود آیا از نظر عملی هم می توان به دامدار گفت که تیمار توصیه شده من را به کار ببر چون ۱۰ گرم تولید شیر را افزایش می دهد. اما اگر فقط به آماره های توصیفی، تعداد تکرار و شرایط آزمایش نگاه کرد دقیق تر میتوان گفت که کدام تیمار بهتر بوده است.
حال سوالی که مطرح می­شود این است که با P-value چه کنیم و یا اینکه به جای P-value از چه آماره دیگری استفاده کنیم؟ منتظر نظرات خوانندگان این وبلاگ هستیم.
دوستان جهت کسب اطلاعات بیشتر در این زمینه می­توانند منابع زیر را مطالعه کنند.

Megan L. Head, Luke Holman, Rob Lanfear, Andrew T. Kahn, and Michael D. Jennions. (March 13, 2015).”The Extent and Consequences of P‐Hacking in Science,” PLOS Biology, vol. 13, no. 3
Bishop & Paul A. Thompson. Problems in using text-mining and p-curve analysis to detect rate of p-hacking. 30 Aug 2015. https://dx.doi.org/10.7287/peerj.preprints.1266v2.
Hartgerink CHJ. 2015. Reanalyzing Head et al. (2015): No widespread p-hacking after all?
https://www.authorea.com/users/2013/articles/31568.
Simonsohn U, Nelson LD, and Simmons JP. (2014). P-Curve: A key to the file-drawer. Journal of Experimental Psychology: General 143:534–۵۴۷٫
Leek, Jeffrey T., and Roger D. Peng. “Statistics: P values are just the tip of the iceberg.” Nature 520.7549 (2015): 612-612
David Trafimow & Michael Marks (2015) Editorial, Basic and Applied Social Psychology, 37:1, 1-2, DOI: 10.1080/01973533.2015.1012991

 
avatar
1 Comment threads
1 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
2 Comment authors
رستم عبداللهیعلیرضا رستمخانی Recent comment authors
جدیدترین قدیمی ترین بیشترین رای
علیرضا رستمخانی
علیرضا رستمخانی

سلام می شود از معادلات رگرسیونی استفاده کرد و با ترسیم نمودار تفاروت را در تیمارهای مختلف سنجید