探寻 “学术宇宙” | 计算机领域会议和期刊星系结构的全方位揭示


【新智元导读】Acemap团队结合之前对Nature杂志引用关系数据可视化的技术与当前数据集的特点,对之前技术进行提升,并进行大胆创新,完成了论文数量达4328431篇的计算机全领域引用关系数据的可视化,全方位揭示了计算机领域会议和期刊之间的星系结构。来新智元 AI 朋友圈和AI大咖们一起讨论吧。

前面推文简要介绍了上海交通大学Acemap团队对Nature杂志引用关系数据可视化与展示的过程。到此,我们已经对超大规模学术网络可视化过程有了初步的了解。然而,如何对论文数量更多,引用关系更加错综复杂的计算机领域论文引用关系数据进行可视化,成为摆在我们面前的一个难题。

Acemap团队再次聚焦此问题,结合之前对Nature杂志引用关系数据可视化的技术与当前数据集的特点,对之前技术进行提升,并进行大胆创新,完成了论文数量达4328431篇的计算机全领域引用关系数据的可视化,全方位揭示了计算机领域会议和期刊之间的星系结构。

计算机全领域引用关系可视化“难”在哪里

数据量翻倍,引用关系更加复杂

本次可视化的数据集抽取了Acemap数据库中整个计算机领域中4328431篇论文,以及他们之间的引用关系。下表为与上次可视化数据集的对比情况:

由上表可以明显地看出:CS全领域数据集是之前数据集的2.1倍,连边数是之前10.5倍,平均到单篇论文的连边数是之前的5倍。这种数据量的剧增直接对目前大多数布局算法造成了灾难性的后果,直接导致这些算法无法进行布局。然而,虽然有些布局算法能够处理这种数据体量,但得到的可视化结果只是数据在宏观层次的聚集效果展示,而当图放大到一定程度,图的内部结构将是一片混乱,无任何信息量可以体现。因此,此次可视化过程不仅“难”在如何将数据可视化出来,更“难”在如何使得可视化结果能够在宏观和微观层次兼顾,使其在不同层次均能展示充足的信息,而不至于一片“混沌”。

引用关系复杂化后社区发现陷入“窘境”

此次数据集单篇论文的连边数是之前数据集的5倍,这直接导致这张图变得更加稠密。当我们使用社区发现算法对网络进行聚类时,出现了无法得到合适数量的聚类,聚类效果难以解释等问题。总之,我们使用社区发现的方法对CS全领域数据集进行聚类时,并没有得到令人满意的结果。

思考宇宙的组成,得到解决问题的灵感

宇宙中有四种基本作用力,正是这四种基本作用力,造就了我们现在的世界,当然这里我们不谈四种相互作用如何造就了世界,只谈如何根据宇宙的规律来设计我们的布局算法。

宇宙中四种相互作用

在进行计算机全领域引用关系可视化的过程中,我们以论文发表的会议或期刊作为分类的依据。当完成论文分类后,我们想要以这种分类效果为导向,作为可视化宏观展示的总体效果。当我们按照之前可视化Nature数据集的方法进行布局时,在全图的整体布局步骤中出现了严重的问题,之前聚集在一起的点,被布局算法拉扯到“分崩离析”,丝毫没能得到我们预期的聚类效果,之前的算法完全不适合于此数据集的可视化。

之前的力引导算法模型当中只存在一种形式的力,考虑到宇宙中存在四种不同形式的作用力,我们认为,想要保持聚类效果,在保留原有力的基础上,有必要加入一种聚类之间的作用力,使聚类保持足够的“刚性”,以免被布局算法拉扯到“分崩离析”。

计算机领域会议和期刊星系结构的揭示

我们依照前面的思路,对计算机全领域引用关系数据进行可视化,得到全领域星系图,可以从图中看出,研究内容相似的会议或者期刊以类似星系的效果聚集在一起,小聚类围绕大聚类分布,颇有星系之感。

计算机全领域星系图

我们以计算机视觉领域星系分布进行举例分析:

计算机视觉领域会议和期刊星系分布

图为计算机视觉领域在星系图中的局部放大,首先我们可以清楚的定位计算机视觉三大顶级会议:CVPR、ICCV、ECCV在图中的位置,同时我们也能发现CV领域其他的会议或期刊,如IJCV、PR、CVGIP等。出现这种现象的原因是我们通过分析不同会议或期刊之间的引用关系,进而得到他们之间的相关性,并将这种相关性用于计算聚类之间的力的大小,即相关性越大,聚类之间的引力越大,从而表现出空间上的临近。

除此之外,我们还可以根据图给我们直观的感觉,定性给出一个衡量会议或期刊影响力的index,像CVPR、ICCV、ECCV这样的会议,我们可以认定这些会议为恒星级会议,而在他们周围环绕的会议可以认定为行星级会议。

同样,这种以类似星系汇聚的现象也出现在网络与人工智能领域,其效果如下图所示:

网络(左)与人工智能(右)领域会议和期刊星系分布

微观层面,不再“混沌”

先前在对Nature杂志引用关系数据进行可视化时,主要关注点在于如何改良算法,使得算法能够有效地对更多的数据进行可视化,而在图细节的展现上并没有太多关注,只是在图绘制完成后进行了去重操作。在计算机全领域星系图的绘制过程中,我们觉得展现图的局部特征同样重要。于是我们在对聚类进行布局时就已加入了去重步骤,并且对聚类内部不同话题的论文渲染不同的颜色,进而得到较好的聚类内部展示效果。

由宏观到微观缩放效果动态展示

TIT内部星系结构

上图展示了信息论领域CCF A类期刊TIT聚类内部的构造。当我们逐渐放大进入该期刊的内部时,星系内部的结构逐渐展现出来,不同的颜色代表不同的主题,每个主题之中会存在一个比较大的节点,同时会环绕相同颜色的较小的节点,从而向我们展现了一种论文之间的星系结构!

结语——无垠的宇宙是想象力最终的归宿

无论是不同聚类之间,还是聚类内部的论文之间,都存在有类似星系的结构存在,从而共同组成了巨大的“学术宇宙”。然而,宇宙自大爆炸以来,经历了大约150亿年的演化,从奇点演化成了我们现在的宇宙。我们不禁要问,“学术宇宙”的“大爆炸”从何时开始?然而经过若干年的演化,又将变成什么样子?看来,这一切的一切,要从宇宙中寻找答案了,无垠的宇宙依然是想象力最终的归宿!

本文经授权转载自爱思美谱(ID:acemap_)

新智元推荐

来源:爱思美谱(ID:acemap_)

指导老师 | 傅洛伊 王新兵