在阿西莫夫的《基地》系列科幻小说中,天才哈里·谢顿几乎完美地预测了银河帝国的衰落和之后相当长一段时间的发展。随着近年来机器学习技术的兴起,基于数据的预测在搜索引擎、定向广告和个性化推荐等许多特定的应用领域取得了很大的发展成果,但在更加广泛的科学发现预测、政治预测、社会事件预测乃至人类文明发展的预测上,机器学习还能实现同样的成就吗?而今天我们又已经在这些领域走到哪一步了呢?今日,Science 推出了一个关于「预测(prediction)」的专题,通过多篇文章解读了上述多个领域的研究进展和面临的挑战。人工智能站选择了其中几个主题进行了详细编译,其余的则进行了一些摘要介绍 (篇幅限制没有列出参考文献)。想要更详细了解该专题内容的读者可参阅:http://science.sciencemag.org/content/355/6324
序言
人类从远古时代通过萨满烟熏内脏的方式开始就一直不断尝试着预测未来。正如本专题所探讨的,预测现在是一门高速发展的科学。该文章探讨了如下问题:怎样分配有限的资源、一个国家是否会陷入冲突中、谁将有可能赢得选举或发表一篇影响巨大的论文以及在这样一个新兴领域中如何建立标准。
社会科学家和机器学习社区正在学习新的分析工具,从而从乱糟糟的数据中分离出真正有意义的模式。新工具是令人兴奋的,但是如果只是使用框架上的软件包而没有完全去理解它,那么就会导致一些灾难。这一专题的几位作者描述了平衡机器学习方法和人类因素的现实目标的重要性。
在 20 世纪 50 年代,著名作家艾萨克·阿西莫夫想象了心理史学的图景,其中计算机可以通过庞大的数据集预测帝国的兴亡。现在科学还不能完全做到这样,就像上一次美国大选那样。新闻报道和相关的报告也都描述了最新的科学技术进展,科学家们也相信随着方法的改进和验证数据源的增长,选举和其他社会实践将变得越来越可以预测。
当在多学科交叉领域中努力解决问题时,如将人类对语义的理解和能处理 TB 级数据的算法结合起来,成功似乎将会到来。研究人员可能仍然远远不能做出政策制定者所期望精度的预测,但是他们现在能够预想的情景能帮助塑造一个更好的未来。
一、预测武装冲突:是时候调整我们的期望了吗?
摘要:这篇文章介绍了预测政治暴力(political violence)的一般性挑战,特别是相比于其它类型的事件(比如地震)的挑战。什么是可能的?什么又不太现实?我们的目标是揭穿关于预测暴力的神话,以及说明这一领域的实质进展。
如果「大数据(big data)」可以帮助我们找到合适的合作伙伴、优化酒店房间的选择和解决许多其它日常生活中的问题,那么它也应该能够通过预测致命冲突的未来爆发来拯救生命。这是许多将机器学习技术应用于来自互联网和其它来源的新且大规模的数据集的研究者的希望。鉴于世界上仍还有政治暴力所带来的苦难和不稳定,这一愿景是冲突研究者在政策影响和社会控制上的终极前沿。
话虽如此,但在学术的冲突研究上,预测仍然是非常有争议的。仅有相对很少的冲突专家尝试过明确的冲突预测。此外,还没有建好的早期警报系统可以作为决策的可靠工具,尽管目前已经有一些重大努力了。
近年来,我们已经看到了一系列想要填补这一空白的文章出现,它们利用了大规模数据收集和计算分析领域内的最新进展。这些研究中的任务是预测在给定的国家和年份是否有可能发生国际或国内的冲突,并借此创建全球暴力冲突的年度「风险地图(risk maps)」。最开始的预测模型基于当时政治学领域新兴的定量方法(quantitative methodology)且依赖于简单的线性回归模型。
但是,人们很快就认识到这些模型无法捕获冲突预测的多变影响和复杂的相互作用。这种认识导致了机器学习技术的引入,比如神经网络,这是一种持续至今的分析趋势。在这些模型中,生成暴力后果的风险因素的互动是从数据中归纳式地推断出来的,而且这个过程通常需要高度复杂的模型。今天,冲突预测工作的主要主要部分仍然是在年度上的国家层面分析,也有一些研究已经将其预测的时间范围推至了未来数十年。
最近,新的可用数据和改进过的模型让冲突研究者可以理清政治暴力的时空动态(temporal and spatial dynamics)。其中一些研究可以给出月度或日度的预测。这样的时间划分需要修正已有预测模型。比如说,在 [5] 中提出的方法基于以色列-巴勒斯坦冲突的冲突事件数据。该分析使用一个区分高强度和低强度冲突的模型,基于 1996 年到 2009 年的数据生成了 2010 年的预测。另一些方法的目标是利用新类型的预测器(predictor),比如战争相关新闻报道。因为它们能够以远远更高的时间频率上扑捉到政治紧张,这些报道被证明是比传统的结构变量(structural variables,如民主的水平)更强大的战争发生预测器。
其它研究则在尝试探索暴力的地方性变化(subnational variation),不仅试图预测冲突将在何时发生,更要预测会在何地发生。空间分解(spatial disaggregation)可以让冲突预测按行政单位产生,比如区或市或任意基于网格的位置。这一领域已有的研究重点是特定的国家和冲突。比如 Weidmann 和 Ward 为波斯尼亚的内战生成了市级水平的预测,如图 1 所示。另外也有为非洲的空间网格单元(spatial grid cells)得到的类似的暴力预测 。同样,空间预测模型的复杂性的跨度可以非常大,从空间回归模型到更灵活但也更复杂的机器学习模型。
图 1. 波斯尼亚市级水平的内战暴力预测。(左图)1995 年 6 月在 7 个市级单位实际发生的暴力事件(暗红)。(右图)[7] 中描述的时空模型预测到的暴力(淡红)。画有斜纹的图案表示不正确的预测。尽管有 4 个市级单位的冲突得到了正确的预测,但该模型还是错过了 3 个实际发生的冲突,并错误地预测了 4 个市级单位会发生暴力。而且正如大多数冲突预测案例一样,许多区域仍然是和平的而且也符合预测(以灰色表示)。
预测的愿景和陷阱
很显然,在冲突预测领域确实出现了一些可观的进步。使用明确的和客观的统计标准,更新的方法比传统的解释性模型实现更高水平的样本外准确度(out-of-sample accuracy)。和过去的暴力案例的因果解释相反,样本外预测(out-of-sample forecasting)可以实现不用于拟合模型的事件预测。依赖于先进的定量技术的研究者也取得了具体的预测成功。比如,在 Political Instability Task Force 委托的一份报告中,Ward 及其团队提前 1 个月预测了泰国 2014 年 5 月 7 日的军事政变。
此外,在解决罕见事件预测的挑战上也取得了一些进步。标准的、现成可用的机器学习模型通常适用于不同的输出之间相对平衡的问题。而暴力与和平的预测却并不是这样的问题,其中大部分时间所检查到的单元都是和平的。这个问题可以通过不同的重采样(resampling)技术来解决,这能实现该模型的远远更高的整体预测准确度。Muchlinski 等人应用这样技术在 2001 到 2014 年的样本上预测了内战。他们的模型正确地预测了 20 次内战中的 9 次,而传统的回归模型没有预测正确。
该文献还表明以样本外预测(out-of-sample prediction)为重心有助于防止包含进可能会恶化预测表现的解释性的长列表。更一般而言,这样的分析也是一个有用的提醒:过去事件和未来事件预测的因果解释是不同但相关的实证表现的标准 。
尽管有这样的进展,但要说能拯救生命的冲突预防(conflict prevention)已经马上就能实现还是过于乐观。此外,这一领域还远远没有达到民意调查机构和经济预测机构所能接受的政策影响。为什么会这样呢?
也许最严重的问题在于在完全认识围绕和平与冲突的根本复杂性上的普遍失败。与相对结构化的机构决策设置(institutional decision-making settings,如在微观层面上的投票和消费者行为)相反,冲突过程通常包含一个难以处理的施动因素(actor)集合,这些施动因素以一种让人惊讶的而且从定义上打破规则的方式交互 。这些情形可通过基本和固有的复杂性进行特征化,其允许的是实现「模式预测(pattern prediction)」而不是准确的特定事件的经验预测。在缺乏充分了解所有理论上的组件的交互方式以及缺乏足够用于测量相关变量的数据的情况下,我们所能希望的只有在能增加冲突的概率的结构特征的基础上的风险评估(risk assessment)。因此,至少在宏观层面上,要根据之前在稍不复杂的领域(如台球、行星运动或交通系统、)或更简单的政治环境(如选举竞争)上的成功来确定未来预测的表现是无效的;在这些更简单的问题中,理论原理得到了广泛的了解,而且相关事件发生的频率也很高。
即便神经网络这样的机器学习技术能在底层数据捕捉非线性,但是地缘政治的变化改变了如国家及其边界这样的分析单位,这种改变带来了一个更基本的挑战,尤其是对于长期宏观预测来说。大多数宏观模型倾向于跟踪一组给定的现有状态到未来的属性,而忽略了领土变化的可能性,比如分裂与统一。然而,正如前苏联和南斯拉夫冷战结束带来的变化所展现的那样,这些国家的国家层面上的数据几乎没有为冷战结束后的预测提供指导。地域的变化之外,这些隐含的恒常性假设更普遍地适用于单位和因果机制效应之间的互动。这个问题阻碍了「交叉验证」的使用,这种方法会将数据集分成若干部分,其中一些是用来「训练」预测算法,还有一些是作为「抵抗(holdout)」部分,后面会用来测试算法。在一些将历史切成碎片这种做法的情况下,关于长期趋势的有价值信息会丢失,因为这种方法打乱了历史时期,把它们看成了是 等效的(equivalent)。
数据质量进一步阻碍了政治暴力预测的进展。与台球或行星运动轨迹不同,测量冲突的发生、地点和时间要难得多,而且这些预测与相当大的不确定性有关。对于许多暴力的决定因素,如经济状况,类似的问题也同样存在。即使在过去事件的统计解释测量上误差不是个问题,但它仍然对未来暴力行为的预测构成了挑战,同时还常常会降低暴力发生地点和时间预测的置信度。如果暴力测量结果与一个或更多的预测指标变量呈现系统性相关,那么会产生类型更多的严重错误。因为政治暴力往往是从新闻文章这样的次要来源(如新闻文章)编码而来的,所以高水平地暴力观察可能是源于高水平的实际暴力或者概率更高的报道(或者两者都是)。这使得预测很困难。扩大数据集——如在使用自动事件编码的几个项目中——可能加剧这一问题,因为它同样依赖次级来源。
即便在预测研究上的最近进展很有前景,我们还是要警告从理论和政策上高估其重要性的倾向。如上面所讨论,样本外预测有助于理论建设,但是,这并不意味着有效的解释必须始终是预测性的。根据达尔文的理论,一些高度依赖路径的过程只允许特定情况下的事后解释。鉴于冲突过程的复杂性特征,特别是在宏观层面,这样的解释仍然可以提供关于具体机制和政策有效性的关键信息。此外,将预测表现作为唯一有效的经验评估标准是不明智的,特别是在预测模型非常复杂和不透明,以至于尚不清楚预测成功的驱动因素是什么的情况下。例如,模型集合上的贝叶斯平均是一种优雅归纳技巧,它从竞争模型中汇聚了大量数据,但除非理顺理论上的问题,否则整体结果可能只不过是理论上的黑箱而已。
做政策相关的预测需要谨慎的原因研究还有一些。学者们给出的预测通常都假设政策制定者最要想要的是预测性的风险评估,因为这些东西能让他们通过配置预防性资源和干预减少潜在冲突。然而,这些希望假定了政策干预的效用已被广为人知。事实上,无理论的预测在不了解冲突的驱动因素的情况下很少能指导干预。因此,谨慎执行政策分析评估冲突减少措施带来的因果效用是有效政治宏观预测的先决条件。考虑到获得关键社会指标的可靠信息是有困难的,尤其在发展中国家,在许多情况下,一些基本描述和解释建模可能比预测更迫切需要。
推荐
有许多方法可以改善现有的冲突预测工作,例如,涉及到方法论和结果的沟通。在一些情况下,这需要更多用户友好的方式来呈现结果,比如报告现有和预测的趋势,而不仅仅是基于花哨估计技术的接收者操作特征(receiver operating characteristic,ROC)曲线。透明性还要求关于采样周期的关键假设和不确定性测量在多个场景中基于备选假设的情况下能被明确陈述和经过鲁棒性测试。否则,研究者的错误估计可能会传达一种错误的确定感。
为了评估新方法的附加值,分析师们需要更好地比较他们从复杂的预测机制中得出的预测与简单的基线模型。它最纯净的形式,比如一个基线模型,能简单地预测出过去没有给现在带来变化。例如,Lim 等人用一个基于 agent 的复杂模型预测了前斯拉夫种族暴力的位置。虽然该模型的预测精度乍一看令人印象深刻,进一步的检查发现,这种表现与一个在地图上随机标出暴力事件(塞尔维亚和黑山共和国除外)的模型差不多。
最终,在政治暴力这个问题上,希望大数据通过某种无理论的「蛮力」产生某种有效的预测是错误的想法。自动的数据提取算法,比如基于社交媒体的网页抓取和信号探测,可能会加剧政治紧张局势,但这并不意味着这些算法能以较高的时空精度预测低概率冲突事件。只有研究人员考虑到数据质量和代表性的局限性,大型自动编码的数据集才能发挥用处。这样一来,团队工作的人类「超级预测员」仍然能在一般政治事件预测上击败的不仅是更专业的专家,还包括预测市场和其他自动化的方法就不足为奇。
总体上看,我们坚决相信冲突预测非常有用,也值得投入研究。但是,未来的预测研究需要识别由人类系统的大量历史复杂性与偶然性导致的内在局限。如冷战的结果和更多的最近历史事件表面,像「英国退欧」和「特朗普大选胜利」这样的历史性「事件」经常会讽刺脱离语境的样本外的推算(out-of-sample extrapolation)。讨论经济发展长期预测的难度时,Milanovic 提醒我们「可以也确实会改变的变量数量,历史中(『自由意志』)人物的角色」,以及战争和自然灾害的影响是如此之大,以至于即使是一代人中最优秀的头脑所作出的大趋势预测也很少正确。
然而,同时,时空范围更有限的预测——例如预测的一个给定的处于内战的城市的短期暴力轨迹——是完全可能的,因为它们不太可能受到这些发展的影响。因此,该领域的挑战是,要在社会和政治世界固有的复杂性与我们准确预测政治暴力的能力的相关局限之间找到一个平衡点。最近收集冲突事件的非总体和空间直观(spatially explicit)的数据加快了,结果表明,在有限的时空半径内,政策相关的预测是可行的,同时潜在用处也非常大。然而,超出这些限制,大量的理论和经验的不确定性往往压倒了预测的尝试。在这样的情况下,在生成可能的情景这个任务上,预测建模作为一种启发式工具,而不是作为具体政策建议的生产工具,或许会更有用。
二、科学学领域中基于数据的预测研究
摘要:想要预测发现的愿望——提前知道将由谁在何时何处发现什么,几乎渗透了现代科学的所有方面:从个人科学家到出版商,从资助机构到招聘委员会。本文调查了「科学的科学(science of science,科学学)」的新兴和跨学科领域,以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。
想要预测发现的愿望——提前知道将由谁在何时何处发现什么,几乎渗透了现代科学的所有方面:从个人科学家到出版商,从资助机构到招聘委员会。本文调查了「科学的科学(science of science,科学学)」的新兴和跨学科领域,以及使我们得知科学发现的可预测性的因素。而后我们将讨论改进源自科学的科学的未来机遇及科学社区中积极和消极的潜在影响。
目前,对预测发现——对何人何时何地发现何物提前有些想法——的渴望几乎遍及现代科学的所有方面。个人科学家通常预测哪些研究问题或课题会是有趣的、有影响力的,并且可获得资金支持。出版商和资助机构评估手稿或项目意见书时,部分是通过预测其未来的影响力进行的。员工招聘委员会也会预测哪些候选人员会在其职业生涯中作出重要的科学贡献。对于通过税费资助大部分科学研究的社会大众来说,预测也是重要的。我们能使科学发现过程更有可预测性,就能将资源更高效地用于推动有价值的技术、生物医学和科学方面的进步。
尽管存在这种普遍的需求,我们对如何发现的理解仍然是局限的,并且个人、出版商、资助机构或招聘委员会做出的预测中相对来说极少是通过科学方式做出的。那么,我们如何能知晓哪些是可以预测的,哪些是无法预测的?尽管将发现与发现者相分离会存在困难,但该论文的首要关注点是科学的科学:为科学性地理解导致科学发现的社会过程(social processes)而进行一种跨学科工作。(是为了对科学哲学的现时思考及科学家如何在个别科学挑战方面取得进展,请看(1)
这种预测发现的兴趣可以向前追溯近 150 年,一直追溯到哲学家 Boleslaw Prus (1847–1912) 和经验主义学派的社会学家 Florian Znaniecki (1882–1958) 的作品。特别是 Znaniecki,在其倡议下,设立了对科学社会进程的数据导向研究。在 20 世纪的大部分时间里,该目标进展缓慢,部分是由于好数据难获取,且大部分人满足于专家评判。
今天,科学圈是一个巨大而又多变的生态系统,包含着数以百计的互相关联的研究领域,数以万计的研究人员和每年层出不穷眼花缭乱的新结果。这样惊人的体量和复杂度进一步扩大了对科学的科学研究的呼声并激发了对这种类型测量量化方法的研究,比如对过去成果的引用、新成果的产生、职业生涯轨迹、资金赞助、学术奖励等等。数字技术使得这些信息的生成量巨大,而研究人员则正在开发新的强大的计算工具来分析这些信息。举个例子,为了自动量化某些专业科学问题研究的进展,自动提取和分类论文中的相关内容。
目前普遍认为,通过挖掘这些信息所得到的预测远比专家的意见更为客观精确。书目数据库和在线平台——比如,Google Scholar、PubMed、Web of Science、JSTOR、ORCID、EasyChair、和「altmetrics,」——正在使研究人员对科学进展的深入洞见进入一个新的时代。
这些努力也带来了一个引人争议的问题:我们最终能够预测重要的发现和它们的发现者吗?就像 Yoshinori Ohsumi 的诺贝尔奖——对动物细胞的自我吞噬系统的相关工作。我们还不知道答案,但这项工作肯定会使我们在科学研究这一社会活动的理解上更进一步。举个例子,一些科学发现是很容易被预测的(图.1)。随着理论和证据的累积,很明显一个发现将迫在眉睫,就像一幅拼图中间就缺了那一小块一样。人类基因序列的确定和引力波的观测就是这种发现的很好例子。另一方面,一些发现似乎不可能被预测,因为它们可能代表了促使我们重新思考整个问题的那一小块拼图或者是发现了正在发掘的那一部分的新用法。尽管隐喻着这样的关键创新的小块有时是当下显而易见的,就像基因编辑技术,而有时这些隐喻又需要时间以使得其余的相关部分进入我们的视野,就像青霉素(第一种抗生素)的例子,我们用了 15 年才实现它。
图 1:多意外才能算是一项发现?
科学发现在相对于它们各自的已知知识的不可预见性这一问题上而各有不同。为了说明这一观点,我们把 17 个主要科学发现的例子从完全无法预计(如抗生素、基因编辑技术、以及宇宙微波背景辐射)到可以预知(如引力波、DNA 的结构、人类基因的编码)进行排列。
通过使用已发表成果以及科学生涯中的现代数据,科学学的研究人员们已经开始定义一些在各个领域内普遍认同的量化特征,而这些洞见正重新定义科学学可预见性的极限。以下四个领域具体体现了这些成果:对过去发现的引用量、谁得到了相关的研究职位、科学的生产力以及在职业生涯中主要发现的时机。但是,基于这些方面的工作同样也暗示了它受限于数据驱动的对科学发现的预测。
现代的文献数据库允许研究者轻松汇总和研究引用量,这提供了一种方便但也有争议的科学影响力测量方式。50 多年之前,de Solla Price (1922–1983) 在许多知名的成果中识别出了驱动引用量的基本机制,其中当前可见度和幸运事件能驱动一个正向反馈循环,这能放大未来的可见性 (4)。这种「择优依附(preferential attachment)」机制解释了论文之间的引用如此不均衡的原因,为什么有的论文能够得到比典型论文多数百倍乃至数千倍的关注。这个模型也能对一个发展中的领域内的引用积累情况能做出非常好的预测。一个带有论文的新旧程度及其固有吸引力等控制量的修改过的版本能为单篇论文的长期引用量估计提供预测,其能表明引用达到峰值的时间以及需要多少时间才能将一项发现变成一个常识 (6)。
但是,一些发现并不遵循这些规则,这些例外表明,除了可见度、运气和正向反馈,还存在更多与科学影响力有关的因素。比如说,一些论文远远超出了由简单的「择优依附」所做出的预测 (5,6)。另外还有科学中的「睡美人」:在很长一段时间内休眠不被人注意的发现,之后突然得到了很大的关注 (7-9)。一项在过去 100 年来的近 2500 万份自然科学和社会科学出版物上的系统性研究发现「睡美人」在所有研究领域都有出现 (9)。比如,爱因斯坦、波多尔斯基和罗森在 1935 年的关于量子力学的论文;Wenzel 在 1936 年关于防水材料的论文;Rosenblatt 在 1958 年关于人工神经网络的论文。沉睡的论文的觉醒可能从根本上来说是无法被预测的,部分原因是在一项发现的影响显现之前,科学本身也必须取得进步。
做出什么样的发现部分取决于谁在做这个发现以及他们接受的是什么样的科学家训练(10)。科学家生产力队伍的这些特点是受一小部分颇有声望的研究机构的博士项目驱动的,这是由用来训练大多数职业研究者的数据揭示出的。(11)作为这一优势的结果,研究议程以及少量项目的博士生人口统计学趋于驱动着科研偏好和整个生态系统的生产力构成。除了这一稳健的模式——85% 的新教员是来自博士项目到不同层次声望的研究机构——之外,到目前为止,教员安置显然是难以预测的。利用了职业生涯早期生产力、博士后训练情况、地理位置、性别方面等更多方面数据的模型几乎很难改善有关最终职位安置的结果,跟了解这个人的学术血统后的预测效果差不多(12)。这一背景下的准确预测或许需要不同的、更少接触到的数据,或者安置结果根本就是难以预测的,因为这取决于潜在不可测量的因素。
通过测量科研生产力以及发表作品被引用情况,研究人员也已经调查过了科学家个人在职业生涯中的表现和成就的可预测性。一般常识认为生产力——粗糙得说就是发论文的数量——会在职业生涯早期趋于高峰,接下来是一条长长的、逐渐下降的曲线(13),或许日益增加的教学和服务任务影响了科研作品的数量,降低了创造力等。不过,近期的一项对四十多年的生产力数据分析(针对 2300 名计算机科学教育人员)表明,个体生产力存在巨大差异性(14)。通常,最富生产力的时间集中在成为首席研究人员的最初 8 年中(图 2),生产力高峰通常出现在首次升职之前。同时,近一半研究人员生产力最高峰的一年会出现得晚一点,有些研究人员的生产力最高峰出现在职业生涯晚期。
对于绝大多数研究人员来说,生产力高峰很早就出现了。
(左)热图表明 2300 名计算机科学教员职业生涯中,生产力最高峰年份出现的时间(以发表作品数量为准),从第一份教职开始,从左到右依次列开。(右)直方图对热图的横向进行了总结,表明,对于绝大多数 研究人员来说,他们生产力达到最高峰的一年通常出现在创立自己实验室的 8 年内。
过去的作品也意味着,职业生涯的早中期更有可能做出科学家个人最佳科学发现,比如,被引用最多的作品(15,16)。这一模式意味着主要发现的出现时间多少是可以预测的。不过,针对 10,000 名科学家发表作品历史的分析表明,实际上,一项发现的影响力和它在职业生涯中出现的时机,并无相关性。也就是说,当这位科学家论文按照从第一篇到最后一篇的顺序进行安排时,他们引用率最高的发现就是第一篇论文的可能性大致等于可能是第二篇、第十篇甚至最后一篇的可能性(图 3)。年轻科学家倾向于成为绝大多数最主要发现的发起人——这一发现因此也是他们通常更富生产力这一事实自然而然的结果,并不必然是职业早期能力提升的一个特征。仅凭简单的机会本身,个人的最佳发挥更有可能出现在这位科学家职业生涯更富创造力的阶段。
图 3. 在一位科学家作品序列上任意一点的主要发现。
这幅栅格图展示了随机挑选的 150 位 物理学家(17)所有作品的顺序,从第一篇到最后一篇,每一行圆圈代表了一为科学家发表作品的顺序。一行当中,蓝色圆点标记的是最高影响力的作品。蓝色圆点在表格里的不一致分布以及对应 10,000 调查者(顶部)柱状图的平坦表明,主要科学发现什么时候出现,并无规律可循。
虽然每位科学家影响最显著的论文的相对时间可能无法预测,但预测论文会被引用的次数和它是两码事(17,18)。具体来讲,援引已发表论文会以系统、持续性的方式因科学家而异,这与科学家工作主体的可见性相关,但与研究领域无关。这种模式使我们能够预测一个科学家最优论文的被引用量。关于科学家个人巅峰时期和幅度的两个结果表明,个别科学家成就的某些方面极难预测,而在其他方面更容易些.
生产力和影响力当中,强健以及场外独立(field-independent)模式,以及研究建议评估中有关偏差的证据,对目前为大多数科学研究提供资金的方式提出了质疑。比如,观察及实验研究表明,女性、非白人研究者(19,20)或侧重于跨学科研究(21)的项目申请获得资助的可能性更低。同样,最具创造力与影响力的时间集中于科研生涯的前十年,这似乎证明将资金从较年长的科学家向年轻科学家转移的举措具有合理性。NIH 长期支持早期研究者便是一个显著实例,尽管其成功很有限——因为 NIH 对 40 岁以下科学家的奖励数量仍低于 30 年前的峰值(22)。另一方面,有人可能认为尽管外部资金不平衡,年轻的研究人员往往更有成