2016年2月22日,美国计算社区联盟(CCC)发布了《加速科学:一项计算科学研究议程》白皮书,旨在推动认知工具的开发,发挥大数据对科学研究的变革性潜力,显著地加速科学技术的进步。
传感、测量、存储和通信技术及由此产生的大数据带来了前所未有的机遇,不仅加速了科学进步,还开辟了新发现模式。然而,人们收集、存储和处理数据的能力与充分利用数据促进科学进步的能力之间存在着巨大的差距。为使科学发展跟上数据收集与处理的步伐,就需要重点开展以下几个方面的研究工作。
(1)算法的开发、分析、整合、共享和模拟,自然过程的信息处理抽象,以及形式化的分析和模拟方法与工具。
(2)在科学研究过程中,可增强、拓展人们智慧及与人合作的创新认知工具。具体包括:算法的开发与分析及各科学研究过程的信息处理抽象,具有这些认识的计算工件的开发,将开发的认识工具集成到相互协作的人机系统和基础设施中,进而加速科学进步。
具体的优先研究内容包括:
(1)算法抽象:相应的抽象对象包括具体学科中的自然实体、关系和过程,分析与模拟的形式化方法与工具,考虑不确定性和可变性的具体模型的形式化,跨越抽象、空间、时间多层面的结合。
(2)认知工具:主要面向的应用领域包括绘制学科知识图谱,识别技术空白;基于当前科学优先研究方向和技术空白确定所需开展的研究问题;机器阅读,如进行实验方案和科学观点的提取与组织描述、支持假设并验证科学文献及科学数据库和知识库中学术观点的方法;基于文献的科学发展,如从现有文献知识中得出推论与假设并对假设进行可行性排序的方法;表达、推理、更新科学论证,如管理多个互相冲突论证、评估其合理性与不确定性和来源的语言与推理技术;观察和实验,如用于描述和协调测量测量过程和数据模型、获取和管理数据来源、描述和量化实验效用和成本与可行性、比较不同的实验、选择最优实验方案的语言和形式方法;操纵假说、猜想和理论,支持观察和实验;分析和解释观察与实验结果,如明确模拟偏压、噪声和分辨率等测量过程的机器学习方法,将从物理理论中得出的限制纳入数据驱动的推论中,建立形式上类似于学科科学家的模型以缩小模型创建者和使用者之间的差距;以一种可重复、可扩展工作流动的形式记录、共享、审查、复制、连接整个科学研究过程;连接科学研究结果并转化为学科知识;就共同感兴趣的问题与具有互补知识、技术、专业和观点的科学家协作、沟通、形成合作团队;组织和参与公民科学项目,如科学过程中分解任务、分配任务、整合结果、激励参与者等工具;跟踪科学进步、学科和科学影响力演变的认知工具。