五大洲的调查人员报告说,他们能够在有影响力学期间描述的一项研究中,只能在100篇之前公布的100篇以前公布的研究结果中复制了大约40%的结果 科学。称为再现性项目的大规模合作:心理学,可以作为检查其他领域的研究的可重复性的模型,并且已经在进行中审查癌症生物学研究的类似努力。

科学方法的核心,实验“必须可重复,”这是一位高级编辑吉尔伯特下巴 科学. “也就是说,除了原始实验者以外的人应该能够通过遵循相同的实验方案来获得相同的发现。”可以复制一项研究越容易,其结果越值得信赖。但“越来越关注,可重复性可能低于预期或期望,”弗吉尼亚大学的心理学教授表示相应的作者Brian Forne。

为了解决问题,许多学科的科学家建立了 开放科学中心 (COS)在夏洛茨维尔,VA。再现性项目:心理学,他们的第一项研究倡议,开始于2011年招募志愿者。他们要求研究人员团队,共270名合作作者,从一项研究中选择—所有反映基础科学,不需要专门的样品或设备—2008年出现在三项尊重的心理学期刊中: 心理科学;人格与社会心理学杂志。 实验心理学杂志:学习,记忆和认知.

通常证据较弱,复制较弱。证据较强的是从较大的效果规模开始,结果越多,结果就越有可能。

虽然结果是“有点令人失望,”下巴在电话会议期间表示讨论调查结果,他强调,它不一定与所测试的理论的有效性甚至得出的结论。科学过程涉及“对理论和实验的不断提问和评估。”即使是非再产物的实验也有助于通过帮助排除替代解释来促进对科学的理解。相反,这项研究表明“我们应该对许多原始实验结果感到不那么自信,这些结果被提供为支持这些理论的经验证据。”

发表同样的电话会议,心理科学和COS董事会成员协会执行董事Alan KRAUT,取得了类似的观点:研究参与者的不可避免的变化,时间,位置,研究团队的技能以及许多其他因素将永远存在影响结果。“唯一的发现将重复100%的时间,” Kraut noted, “是一个可能是渴望和无聊的。”

该团队收到了集合协议和分析计划,并与原始研究作者咨询,以便尽可能地与他们的学习设计相匹配。实验结束后,项目协调员汇总了数据,并独立地审查了分析。

研究作者使用五个标准:统计显着性和P值的统计复制成功—评估事件在一定预定的似然内的可能性(通常为95%,或p值为0.05);效果尺寸,表明测试的现象的强度;复制团队的主观判断;以及所有100个实验的效果大小的荟萃分析。他们还考虑了各种其他特征—其中样本大小,所谓的“影响令人惊讶”和原始团队的专业知识—这可能会影响结果。

在最终分析中,他们发现,而97%的原始研究报告过统计上显着的结果(获得0.05或更低的P值)只有36%的复制。然而,使用p值的弱点是它将0.05作为a“bright line”在显着和无情的结果之间。为了解决这个问题,研究人员还检查了效果大小。在这种方式测量时,复制的实验比较好。总共有47%的复制表现出符合原始结果与95%的信心相匹配的效果,尽管效果的强度降低了。主观上,39%的研究团队认为他们的复制成功。

兴趣,作者发现某些类型的研究比其他人更容易复制。该项目中包含的57项社会心理学研究中只有约25%成功地复制,而43个认知心理学的50%是50%。社会心理学研究也具有较弱的效果尺寸。此外,原始实验的设计更简单,结果越可靠。研究人员也发现了“surprising”效果不太可重复。

在这项研究中,作者排除了所谓的高级神经影像动物的研究,也许也不包括可能更容易复制的精度实验。但作者注意到,由于出版物偏见,可重复性的问题仍然存在于所有科学领域,也许部分是部分。“出版物是科学的货币,” Nosek says. “为了成功,我的合作者和我需要定期发布,并在最负盛名的期刊中发布。”但学术期刊经常优先考虑“新颖,积极和整洁的结果,”他补充道。未能找到重要结果的研究很少看到灯光。此外,先前公布的实验的复制—这在移动科学前方至关重要—不太可能生存同行评审。

改变那个,玛西娅麦克纳特,主编 科学, 指出,她的杂志和其他人最近发表了指导方针,鼓励他们的选择和审查过程中提高透明度和开放性。她补充说“作者和期刊编辑应该谨慎发布略微明显的结果,因为这些结果不太可能繁殖。”如果他们忽视了这个事实,鼻子的结论,“然后出版的文献可能比现实更美丽。 ”