arXiv,30 岁生日快乐!它的诞生,始于一个​被塞满的邮箱


【新智元导读】arXiv 30岁啦!在这特殊的「而立生日」,许多学者们也送上了祝福,感恩与arXiv一起度过的这些年!根据《自然》,2021 年预计arXiv会有大约 190,000 篇新文章。

arXiv 30岁啦!

这个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站,始于1991年8月14日。

30年来,它见证了无数学者的耕耘。

根据Nature的报道,截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。截至2016年10月,提交率已达每月超过10,000篇。

预计 2021 年会有大约 190,000 篇新文章。

这个神奇的网站由保罗·金斯巴格创建,当时工作于洛斯·阿拉莫斯国家实验室的他,常常充满预印本发文的邮箱而发愁。

于是,保罗·金斯巴格意识到了中央存储的必要性,并于1991年8月创建了一个中央仓库邮箱,该邮箱存储在洛斯阿拉莫斯国家实验室中,可以从任何计算机上进行访问。

创立:始于一个被塞满的邮箱

在金斯巴格创立中央仓库邮箱后,很快它又增加了其他访问方式:1991年使用FTP,1992年使用Gopher,1993年使用万维网。

渐渐地,这个本意在收集物理学的论文预印本,随后括及天文、数学等其它领域。

早期,arXiv被称为「LANL预印本数据库」。LANL就是洛斯阿拉莫斯国家实验室的缩写。

2001年,arXiv落脚于康乃尔大学,并在全球各地设有镜像站点。网站在1999年改名为arXiv.org。

2002年,金斯巴格因这个网站获得了麦克阿瑟奖。

到了2011年9月,康奈尔大学图书馆全面负责了arXiv的运营和发展。

不过,金斯巴格本人似乎并不赞同arXiv的这个结局。

他在《高等教育纪事报》中被引用说「这原应该是一个3小时的旅程,而不是一个无期徒刑」。

但是,金斯巴格仍然留在arXiv的科学顾问委员会(页面存档备份,存于互联网档案馆)和arXiv物理顾问委员会(页面存档备份,存于互联网档案馆)中。

意义:造就开放获取

说到arXiv的意义,它的存在是造就了科学出版业中所谓开放获取运动的因素之一。

现今的一些科学家仍习惯先将其论文上传至arXiv.org,再提交予专业的学术期刊。

这个趋势对传统学术期刊的经营模式造成了可观的冲击。

不过,许多arXiv上的论文都被认为不靠谱——因为它们未经同行评审。

尽管如此,2004年起,arXiv采行了一套「认可」系统。

在这套系统下,作者首先要得到认可,这种认可可能来自另一位具认可资格者的背书,或者依照某些内部规定而自动授予。

来自著名学术机关的作者通常会自动得到认可。

例如,最近美国计算机科学家,波特兰州立大学教授,Melanie Mitchell在arxiv上发布了一篇文章批判AI,就引起了极大的争议,遭reddit网友狂喷。

Mitchell是一位主要研究领域为复杂系统和遗传算法以及细胞自动机。她的论文阐述了科研人员对AI的四个谬误,这些谬论可能导致对该领域的过度自信预测。

reddit网友表示,不知道这篇论文为什么被炒作起来了,但上述四个理论已经是众所周知的事。

并直言,arxiv大部分这种论文都是旧新闻炒冷饭。

还有网友认为这篇论文投稿肯定中不了。

近年来,arXiv加入了自动机器学习框架的审核,这样,许多潜在问题就能够被及时标记,以便之后的人工审查。

尽管有争议,但ArXiv在计算机科学里究竟有多受欢迎?

根据2017年的一份重磅报告,所有计算机科学论文里,有23%在arXiv.org上有电子版本,而10年前这个数字只有1%

许多研究人员都使用arXiv来发布预印版论文。在2017年arXiv上发布的论文中,有56%是在提交同行评议之前或在审核中的预印本

计算机科学的各个领域中,电子文献的流行程度差异很大。理论计算机科学与机器学习领域,超过60%的发表论文有arXiv电子版本;其他领域对arXiv的使用率基本为零。不过,大多数领域对arXiv的使用都处于上升趋势。

在这特殊的「而立之年」生日,许多学者们也送上了祝福,感恩与arXiv一起度过的这些年!

留言说出你与arXiv的故事吧!

参考资料:

https://www.nature.com/articles/s42254-021-00360-z