یک دلیل ممکن است برخی از مطالعات علمی اشتباه باشد

: By جف کامینگ ، دانشگاه لا تروب

با تشکر از بازدید شما InnerSelf.com، که در آن وجود دارد 20,000 + مقاله‌های تغییردهنده زندگی که «نگرش‌های جدید و امکانات جدید» را تبلیغ می‌کنند. همه مقالات به ترجمه شده است بیش از 30 زبان. اشتراک به مجله InnerSelf که به صورت هفتگی منتشر می شود و الهام روزانه ماری تی راسل. مجله InnerSelf از سال 1985 منتشر شده است.

شکستن

یکی از دلایل برخی مطالعات علمی ممکن است اشتباه باشد

وجود دارد بحران تکرارپذیری در علم - "مثبت کاذب" نامشخص است حتی از مجلات تحقیقاتی ما نیز استفاده می کنیم.

مثبت کاذب ادعایی است که اثر زمانی وجود دارد که در واقعیت وجود ندارد. هیچ کس نمی داند چه مقدار مقاله های منتشر شده حاوی نتایج نادرست یا غلط است اما وجود دارد نشان می دهد که این نسبت کوچک نیست.

جان ایونیدیس، اپیدمیولوژیست، بهترین توصیف این پدیده را در یک مقاله معروف در 2005 ارائه داد که به طور تحریک آمیز با عنوان "چرا بیشتر نتایج منتشر شده تحقیق نادرست است" یکی از دلایلی که ایواندیس برای بسیاری از نتایج نادرست به دست آورد،p هک کردن "، که از سوی پژوهشگران فشار به دست می آید برای رسیدن به اهمیت آماری.

اهمیت آماری چیست؟

محققان معمولا برای تکیه بر نتیجه گیری از داده ها استفاده می کنند آزمایش اهمیت. به عبارت ساده، این به معنی محاسبه "p ارزش "، که احتمال نتایج مانند ما است اگر واقعا هیچ تاثیری ندارد. اگر p ارزش به اندازه کافی کوچک است، نتیجه اعلام شده به لحاظ آماری قابل توجه است.

به طور سنتی، a p ارزش کمتر از .05 معیار برای اهمیت است. اگر گزارش یک p05/XNUMX ، خوانندگان احتمالاً باور دارند که شما یک اثر واقعی پیدا کرده اید. با این حال ، شاید در واقع هیچ تاثیری نداشته باشد و شما یک مثبت کاذب را گزارش کرده باشید.

بسیاری از مجلات تنها مطالعاتی را منتشر می کنند که می تواند یک یا چند اثر آماری قابل توجه را گزارش کند. دانش آموزان فارغ التحصیل به سرعت یاد می گیرند که دستیابی به افسانه ای p

این فشار برای رسیدن به pهک کردن

دلبستگی p هک

برای نشان دادن p هک کردن، در اینجا نمونهی فرضی است.

بروس اخیرا یک دکترا را تکمیل کرده است و یک جایزه معتبر برای پیوستن به یکی از تیم های تحقیقاتی برتر در زمینه خود قرار داده است. اولین آزمایش او به خوبی کار نمی کند، اما بروس به سرعت روش ها را رفع می کند و یک مطالعه دوم را انجام می دهد. این به نظر امیدوار کننده تر است، اما هنوز هم نمی دهد p ارزش کمتر از .05.

بروس، متقاعد شده است که بر روی چیزی است، اطلاعات بیشتری را جمع آوری می کند. او تصمیم میگیرد چند نتیجه را از دست بدهد، که به وضوح به دور از انتظار بود.

سپس متوجه می شود که یکی از اقدامات او یک تصویر واضح تر را ارائه می دهد، بنابراین او بر آن تمرکز می کند. چند ترفند دیگر و بروس در نهایت یک اثر کمی شگفت انگیز اما واقعا جالب را به دست می آورد p

بروس سخت تلاش کرد تا اثرش را پیدا کند می دانستند جایی پوشیده بود. او همچنین احساس فشار برای ضربه کرد p

فقط یک گرفتن وجود دارد: در واقع هیچ تاثیری وجود ندارد. علیرغم نتیجه قابل توجه آماری، بروس به مثابه کاذب منتشر شده است.

بروس معتقد است که او از بینش علمی خود برای نشان دادن اثر مهیج استفاده می کند، زیرا او پس از شروع مطالعه خود اقدامات مختلفی را انجام داد:

او داده های بیشتری را جمع آوری کرد.
او بعضی از داده ها را که به نظر می رسد ناسازگار است کاهش داده است.
او برخی از اقدامات خود را کاهش داده و متمرکز بر امیدوار کننده ترین.
او داده ها را کمی متفاوت تر تجزیه و تحلیل کرد و چند ترفند دیگر را نیز ایجاد کرد.

مشکل این است که همه این انتخاب ها ساخته شده اند بعد از دیدن داده ها بروس ممکن است، ناخودآگاه، cherrypicking شده است - انتخاب و بهینه سازی تا زمانی که او بدست آمد pp

آمارگیران می گویند اگر شما به اندازه کافی شکنجه کنید، اعتراف می کنند. گزینه ها و ترفند هایی که پس از دیدن داده ها ایجاد شده اند، روش های تحقیقاتی مشکوک هستند. با استفاده از این، به طور عمدی یا نه، برای رسیدن به نتیجه آماری درست است p هک، که یکی از دلایل اصلی منتشر شده است، نتایج قابل توجهی از نظر آماری ممکن است مثبت کاذب باشد.

چه مقدار از نتایج منتشر شده اشتباه است؟

این یک سوال خوب و یک سوء تفاهم است. هیچ کس پاسخی را نمی داند که در زمینه های تحقیقاتی مختلف متفاوت است.

تلاش بزرگ و چشمگیر برای پاسخ دادن به این پرسش برای روانشناسی اجتماعی و شناختی در 2015 منتشر شد. رهبری شده توسط براان نوش و همکارانش در مرکز علوم باز است پروژه قابل تقسیم: روانشناسی (RP: P) گروه تحقیقاتی 100 در سراسر جهان هر یک از تکرار دقیق یکی از نتایج منتشر شده 100 را انجام دادند. به طور کلی، تقریبا 40 به اندازه کافی تکرار شده است، در حالی که در اطراف 60 مطالعات تکاملی اثرات کوچکتر و یا بسیار کوچکتر به دست آورد.

مطالعات تکثیر 100 RP: P اثراتی را گزارش می کنند که به طور متوسط فقط نیمی از اثرات گزارش شده در مطالعات اولیه را نشان می دهد. تکرارهای با دقت انجام شده احتمالا برآوردهای دقیق تر از احتمالا ارائه می دهند p هک کردن مطالعات اصلی، بنابراین ما می توانیم نتیجه گیری کنیم که مطالعات اصلی اثرات واقعی را به طور متوسط بیش از دو برابر افزایش داده است. این هشدار دهنده است!

نحوه اجتناب p هک

بهترین راه برای جلوگیری از p هک کردن این است که پس از دیدن داده ها، هر گونه انتخاب یا تنظیمات را اجتناب کنید. به عبارت دیگر، از کارهای پژوهشی مشکوک جلوگیری شود. در بیشتر موارد، بهترین راه برای انجام این کار، استفاده از آن است پیش ثبت نام.

پیش ثبت نام نیاز به پیشبرد یک برنامه تحقیق دقیق، از جمله تجزیه و تحلیل آماری که برای داده ها استفاده می شود. سپس طرح را با تاریخ تمبر، در برنامه ثبت نام کنید چارچوب علمی باز یا سایر رجیستری های آنلاین.

سپس انجام مطالعه، تجزیه و تحلیل داده ها مطابق با طرح، و گزارش نتایج هر آنچه آنها هستند. خوانندگان می توانند برنامه پیش ثبت شده را بررسی کنند و بنابراین اطمینان حاصل کنند که تجزیه و تحلیل در پیش تعیین شده است و نه p هک شده پیش ثبت نام یک ایده جدید به چالش کشیدن بسیاری از محققان است، اما احتمالا راه آینده است.

برآورد به جای p ارزش

وسوسه به p هک یکی از معایب بزرگ تکیه بر است p ارزش های. دیگر این است که pبه جای اینکه بگوییم یک اثر وجود دارد یا نه.

اما جهان سیاه و سفید نیست. برای تشخیص سایه های متعدد خاکستری، استفاده از آن بسیار بهتر است برآورد کردن به جای p ارزش های. هدف با برآورد، برآورد اندازه اثر است که ممکن است کوچک یا بزرگ، صفر یا حتی منفی باشد. از لحاظ برآورد، یک نتیجه مثبت کاذب برآوردی است که بزرگتر یا بسیار بزرگتر از مقدار واقعی اثر است.

بیایید یک مطالعه فرضی در مورد تاثیر درمان داشته باشیم. به عنوان مثال، مطالعه ممکن است برآورد کند که درمان به طور متوسط یک کاهش 7 در اضطراب می دهد. فرض کنید ما از داده های ما محاسبه می شود a فاصله اطمینان [4، 10] - محدوده ای از عدم اطمینان هر دو طرف از بهترین تخمین ما است. این به ما می گوید که برآورد ما از 7، به احتمال زیاد، در حدود 3 امتیاز در مقیاس اضطراب از اثر واقعی - مقدار متوسط واقعی از سود درمان است.

به عبارت دیگر، فاصله اطمینان نشان می دهد که برآورد ما دقیق است. دانستن چنین برآورد و فاصله اطمینان آن بسیار اطلاعاتی نسبت به هر یک است p ارزش.

من به برآورد به عنوان یکی از "آمار جدید" اشاره کردم. تکنیک های جدید جدید نیستند، اما استفاده از آنها به عنوان روش اصلی برای نتیجه گیری از داده ها، برای بسیاری از محققان جدید و گام بزرگ به جلو است. این امر همچنین به جلوگیری از تحریف هایی که توسط p هک کردن

درباره نویسنده

جف کامینگ، استاد افتخاری، دانشگاه لا ترب

این مقاله در اصل در تاریخ منتشر شد گفتگو. دفعات بازدید: مقاله.

کتاب های مرتبط:

at InnerSelf Market و آمازون

شکستن

با تشکر از بازدید شما InnerSelf.com، که در آن وجود دارد 20,000 + مقاله‌های تغییردهنده زندگی که «نگرش‌های جدید و امکانات جدید» را تبلیغ می‌کنند. همه مقالات به ترجمه شده است بیش از 30 زبان. اشتراک به مجله InnerSelf که به صورت هفتگی منتشر می شود و الهام روزانه ماری تی راسل. مجله InnerSelf از سال 1985 منتشر شده است.