人工智能聊天机器人需要更多的书籍来学习。这些图书馆正在开放藏书

分类：资讯

字数: (2376)

阅读: (14)

摘要：剑桥,质量。（美联社）——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库：图书馆。哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍，涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。对于那些正在打官司的科技公司来说，打开有几百年历史的地窖可能是一笔数据财富，因为这些公司的创意作...

剑桥,质量。（美联社）——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库：图书馆。

哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍，涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。

对于那些正在打官司的科技公司来说，打开有几百年历史的地窖可能是一笔数据财富，因为这些公司的创意作品在未经他们同意的情况下被挖掘出来，用于训练人工智能聊天机器人。

微软副总法律顾问伯顿·戴维斯（Burton Davis）表示：“从公共领域的数据入手是一个审慎的决定，因为与目前仍受版权保护的内容相比，公共领域的数据争议较小。”

戴维斯说，图书馆还拥有“大量有趣的文化、历史和语言数据”，这些数据在过去几十年的在线学习中缺失了。

在微软和ChatGPT制造商OpenAI的“无限制礼物”的支持下，哈佛大学的机构数据计划（Institutional Data Initiative）正在与世界各地的图书馆合作，研究如何让它们的历史馆藏以一种有利于图书馆和它们所服务的社区的方式为人工智能做好准备。

哈佛大学法学院图书馆创新实验室的研究负责人阿里斯塔娜·斯库塔斯说：“我们正试图将当前人工智能的一些权力转移回这些机构。”“图书馆员一直是数据和信息的管理者。”

哈佛大学最新发布的数据集“机构图书1.0”包含了超过3.94亿页的扫描论文。早期的作品之一是15世纪的韩国画家的关于种植花卉和树木的作品。馆藏最集中的是19世纪的作品，涉及文学、哲学、法律和农业等主题，所有这些作品都经过几代图书管理员的精心保存和整理。

对于试图提高系统准确性和可靠性的人工智能开发人员来说，这将是一个福音。

“人工智能训练中使用的许多数据并非来自原始来源，”数据倡议的执行董事格雷格·莱珀特（Greg Leppert）说，他也是哈佛大学伯克曼·克莱因互联网与社会中心（Berkman Klein Center for Internet & Society）的首席技术专家。他说，这些藏书“可以追溯到实际收藏这些书籍的机构扫描的实物副本”。

在ChatGPT引发商业人工智能狂热之前，大多数人工智能研究人员并没有过多考虑他们从维基百科、社交媒体、有时甚至是盗版书库中提取的文本段落的来源。计算机科学家称之为符号的数据单位，每个符号可以代表一个单词的一部分。

哈佛大学新的人工智能训练集估计有2420亿个代币，这个数字对人类来说很难理解，但它仍然只是最先进的人工智能系统中输入的一小部分。例如，Facebook母公司Meta表示，其最新版本的人工智能大型语言模型经过了从文本、图像和视频中提取的30多万亿个代币的训练。

此外，Meta还在与喜剧演员莎拉•西尔弗曼（Sarah Silverman）和其他出版作家的诉讼作斗争，他们指控该公司从盗版作品的“影子图书馆”窃取他们的作品。

现在，有一些保留意见，真正的图书馆站起来了。

OpenAI今年向一些研究机构捐赠了5000万美元，其中包括牛津大学拥有400年历史的博德利图书馆（Bodleian Library），该图书馆正在对稀有文本进行数字化，并利用人工智能帮助转录。

波士顿公共图书馆是美国最大的图书馆之一，其数字和在线服务主管杰西卡·查普尔（Jessica Chapel）说，当该公司第一次与波士顿公共图书馆接触时，该图书馆明确表示，它数字化的任何信息都将面向所有人。

“OpenAI对大量的训练数据很感兴趣。我们对大量的数字对象感兴趣。所以这只是一种情况，事情是一致的，”查普尔说。

数字化是昂贵的。例如，波士顿图书馆扫描和整理数十份新英格兰地区的法语报纸是一项艰苦的工作，这些报纸在19世纪末和20世纪初被魁北克的加拿大移民社区广泛阅读。既然这些文本可以作为训练数据使用，它就可以为图书管理员想要做的项目提供资金。

查普尔说：“我们一直很清楚，‘嘿，我们是一家公共图书馆。“我们的藏品是供公众使用的，作为这个项目的一部分，我们数字化的任何东西都将公之于众。”

早在2006年，另一家科技巨头b谷歌就已经开始将哈佛大学的藏书数字化。b谷歌的一个有争议的项目是创建一个包含2000多万册图书的可搜索在线图书馆。

谷歌花了数年时间从作者到它的在线图书库，其中包括许多较新的和有版权的作品。2016年，美国最高法院维持了下级法院驳回版权侵权指控的裁决，最终解决了这一问题。

现在，谷歌第一次与哈佛大学合作，从谷歌图书中检索公共领域的书籍，并为向人工智能开发者发布这些书籍扫清了道路。美国的版权保护，对录音的保护时间更长。