【新智元导读】arXiv 30岁啦!在这特殊的「而立生日」,许多学者们也送上了祝福,感恩与arXiv一起度过的这些年!根据《自然》,2021 年预计arXiv会有大约 190,000 篇新文章。
arXiv 30岁啦!
这个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站,始于1991年8月14日。
30年来,它见证了无数学者的耕耘。
根据Nature的报道,截至2008年10月,arXiv.org已收集超过50万篇预印本;至2014年底,藏量达到1百万篇。截至2016年10月,提交率已达每月超过10,000篇。
预计 2021 年会有大约 190,000 篇新文章。
这个神奇的网站由保罗·金斯巴格创建,当时工作于洛斯·阿拉莫斯国家实验室的他,常常充满预印本发文的邮箱而发愁。
。
于是,保罗·金斯巴格意识到了中央存储的必要性,并于1991年8月创建了一个中央仓库邮箱,该邮箱存储在洛斯阿拉莫斯国家实验室中,可以从任何计算机上进行访问。
创立:始于一个被塞满的邮箱
在金斯巴格创立中央仓库邮箱后,很快它又增加了其他访问方式:1991年使用FTP,1992年使用Gopher,1993年使用万维网。
渐渐地,这个本意在收集物理学的论文预印本,随后括及天文、数学等其它领域。
早期,arXiv被称为「LANL预印本数据库」。LANL就是洛斯阿拉莫斯国家实验室的缩写。
2001年,arXiv落脚于康乃尔大学,并在全球各地设有镜像站点。网站在1999年改名为arXiv.org。
2002年,金斯巴格因这个网站获得了麦克阿瑟奖。
到了2011年9月,康奈尔大学图书馆全面负责了arXiv的运营和发展。
不过,金斯巴格本人似乎并不赞同arXiv的这个结局。
他在《高等教育纪事报》中被引用说「这原应该是一个3小时的旅程,而不是一个无期徒刑」。
但是,金斯巴格仍然留在arXiv的科学顾问委员会(页面存档备份,存于互联网档案馆)和arXiv物理顾问委员会(页面存档备份,存于互联网档案馆)中。
意义:造就开放获取
说到arXiv的意义,它的存在是造就了科学出版业中所谓开放获取运动的因素之一。
现今的一些科学家仍习惯先将其论文上传至arXiv.org,再提交予专业的学术期刊。
这个趋势对传统学术期刊的经营模式造成了可观的冲击。
不过,许多arXiv上的论文都被认为不靠谱——因为它们未经同行评审。
尽管如此,2004年起,arXiv采行了一套「认可」系统。
在这套系统下,作者首先要得到认可,这种认可可能来自另一位具认可资格者的背书,或者依照某些内部规定而自动授予。
来自著名学术机关的作者通常会自动得到认可。
例如,最近美国计算机科学家,波特兰州立大学教授,Melanie Mitchell在arxiv上发布了一篇文章批判AI,就引起了极大的争议,遭reddit网友狂喷。
Mitchell是一位主要研究领域为复杂系统和遗传算法以及细胞自动机。她的论文阐述了科研人员对AI的四个谬误,这些谬论可能导致对该领域的过度自信预测。
reddit网友表示,不知道这篇论文为什么被炒作起来了,但上述四个理论已经是众所周知的事。
并直言,arxiv大部分这种论文都是旧新闻炒冷饭。
还有网友认为这篇论文投稿肯定中不了。
近年来,arXiv加入了自动机器学习框架的审核,这样,许多潜在问题就能够被及时标记,以便之后的人工审查。
尽管有争议,但ArXiv在计算机科学里究竟有多受欢迎?
根据2017年的一份重磅报告,所有计算机科学论文里,有23%在arXiv.org上有电子版本,而10年前这个数字只有1%
许多研究人员都使用arXiv来发布预印版论文。在2017年arXiv上发布的论文中,有56%是在提交同行评议之前或在审核中的预印本
计算机科学的各个领域中,电子文献的流行程度差异很大。理论计算机科学与机器学习领域,超过60%的发表论文有arXiv电子版本;其他领域对arXiv的使用率基本为零。不过,大多数领域对arXiv的使用都处于上升趋势。
在这特殊的「而立之年」生日,许多学者们也送上了祝福,感恩与arXiv一起度过的这些年!
留言说出你与arXiv的故事吧!
参考资料:
https://www.nature.com/articles/s42254-021-00360-z