首页 >> 精选知识 >

数据分析中的微小差异如何导致结果的巨大差异

2023-10-31 17:12:00 来源: 用户: 

在过去大约20年里,人们越来越担心科学期刊上发表的许多成果无法重现。研究发现,根据研究领域的不同,重做已发表的研究的努力会导致23%至89%的案例出现不同的结果。

为了了解不同的研究人员如何得出不同的结果,我们要求数百名生态学家和进化生物学家通过分析给定的数据集来回答两个问题。他们得出了各种各样的答案。

我们的研究已被BMCBiology接受为第一阶段注册报告,目前可作为第二阶段同行评审之前的预印本。

为什么再现性是一个问题?

造成再现性问题的原因在科学界很常见。其中包括过度依赖“统计显着性”的简单衡量标准而不是细致入微的评估,事实期刊更喜欢发表“令人兴奋”的发现,以及有问题的研究实践,这些实践使文章更令人兴奋,但牺牲了透明度并增加了错误率文献中的结果。

许多关于可重复性及其改进方法(例如“开放科学”倡议)的研究在不同科学领域之间传播缓慢。

生态学家对这些想法的兴趣与日俱增,但迄今为止,很少有研究评估生态学的可复制性。造成这种情况的原因之一是很难将环境差异与研究人员选择的影响分开。

与环境影响分开,获得生态研究可复制性的一种方法是关注数据收集后发生的情况。

鸟儿和兄弟姐妹,草和幼苗

我们受到RaphaelSilberzahn领导的工作的启发,该工作要求社会科学家分析数据集,以确定足球运动员的肤色是否可以预测他们收到的红牌数量。该研究发现了广泛的结果。

我们在生态学和进化生物学中模仿了这种方法,并公开征集帮助我们回答两个研究问题:

“蓝山雀雏鸟(Cyanistescaeruleus)的生长在多大程度上受到兄弟姐妹竞争的影响?”

“草覆盖如何影响桉树幼苗的补充?”(“桉树幼苗招募”是指桉树属树木的幼苗数量。)

两百四十六位生态学家和进化生物学家响应了我们的号召。有些人单独工作,有些人团队合作,针对他们对研究问题的总体答案编写了137份书面描述(以及数字结果)。两个数据集的这些答案都有很大差异。

查看草覆盖对桉树幼苗数量的影响,我们收到了63条回复。十八个团队描述了负面影响(更多的草意味着更少的幼苗),31个团队描述了没有影响,六个团队描述了积极的影响(更多的草意味着更多的幼苗),八个描述了混合效应(一些分析发现了积极影响,一些分析发现了负面影响)。

对于兄弟姐妹竞争对蓝山雀生长的影响,我们收到了74条回复。64个团队描述了负面影响(竞争越激烈意味着增长速度越慢,尽管其中只有37个团队认为这种负面影响是决定性的),5个团队描述没有影响,5个团队描述了混合影响。

结果意味着什么

也许并不奇怪,我们和我们的合著者对于如何解释这些结果有多种看法。

我们请三位合著者评论了最让他们印象深刻的事情。

桉树数据的来源彼得·韦斯克(PeterVesk)表示:“从所有分析的平均值来看,这是有道理的。与距树苗的距离相比,草对桉树幼苗的影响基本上可以忽略不计。”最近的母树。但是估计的影响范围令人瞠目结舌。这符合我自己的经验,即分析工作流程中的许多微小差异可能会增加[结果]的巨大差异。”

SimonGriffith在20多年前收集了蓝山雀数据,由于正确分析路径决策的复杂性,之前并未对这些数据进行分析。他说,

“这项研究表明,任何一组数据都没有一个答案。结果有多种不同,需要理解潜在的生物学来解释这种多样性。”

研究研究本身的元研究员菲奥娜·费德勒(FionaFidler)表示:“这些研究的目的不是吓唬人们或制造危机。而是帮助我们理解异质性及其对科学实践的意义。通过像这样的元研究项目,我们可以对不确定性产生更好的直觉,并从我们的研究中得出更好的校准结论。”

对此我们该怎么办?

我们认为,研究结果为研究人员、出版商、资助者和更广泛的科学界提出了三项行动方针。

首先,我们应该避免将已发表的研究视为事实。一篇科学文章只是一个证据,存在于更广泛的局限性和偏见背景中。

推动“新颖”科学意味着不鼓励研究已经被研究过的东西,因此我们夸大了个体研究的价值。我们需要退后一步,根据上下文考虑每一篇文章,而不是将它们视为问题的最终结论。

其次,我们应该每篇文章都进行更多的分析并全部报告。如果研究取决于所做的分析选择,那么提出多种分析以更全面地了解结果是有意义的。

第三,每项研究都应包括结果如何取决于数据分析决策的描述。研究出版物往往侧重于讨论其研究结果的生态影响,但他们也应该讨论不同的分析选择如何影响结果,以及这对解释研究结果意味着什么。

  免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!

 
分享:
最新文章