首页 资讯

人工智能聊天机器人需要更多的书籍来学习。这些图书馆正在开放藏书

分类:资讯
字数: (2376)
阅读: (14)
摘要:剑桥,质量。(美联社)——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库:图书馆。哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍,涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。对于那些正在打官司的科技公司来说,打开有几百年历史的地窖可能是一笔数据财富,因为这些公司的创意作...

剑桥,质量。(美联社)——互联网上所说的一切都只是人性教育的开始。科技公司现在正在利用一个更古老的知识宝库:图书馆。

哈佛大学将于周四向人工智能研究人员发布近100万本早在15世纪出版的书籍,涉及254种语言。波士顿公共图书馆收藏的大量旧报纸和政府文件也将很快到来。

对于那些正在打官司的科技公司来说,打开有几百年历史的地窖可能是一笔数据财富,因为这些公司的创意作品在未经他们同意的情况下被挖掘出来,用于训练人工智能聊天机器人。

微软副总法律顾问伯顿·戴维斯(Burton Davis)表示:“从公共领域的数据入手是一个审慎的决定,因为与目前仍受版权保护的内容相比,公共领域的数据争议较小。”

戴维斯说,图书馆还拥有“大量有趣的文化、历史和语言数据”,这些数据在过去几十年的在线学习中缺失了。

在微软和ChatGPT制造商OpenAI的“无限制礼物”的支持下,哈佛大学的机构数据计划(Institutional Data Initiative)正在与世界各地的图书馆合作,研究如何让它们的历史馆藏以一种有利于图书馆和它们所服务的社区的方式为人工智能做好准备。

哈佛大学法学院图书馆创新实验室的研究负责人阿里斯塔娜·斯库塔斯说:“我们正试图将当前人工智能的一些权力转移回这些机构。”“图书馆员一直是数据和信息的管理者。”

哈佛大学最新发布的数据集“机构图书1.0”包含了超过3.94亿页的扫描论文。早期的作品之一是15世纪的韩国画家的关于种植花卉和树木的作品。馆藏最集中的是19世纪的作品,涉及文学、哲学、法律和农业等主题,所有这些作品都经过几代图书管理员的精心保存和整理。

对于试图提高系统准确性和可靠性的人工智能开发人员来说,这将是一个福音。

“人工智能训练中使用的许多数据并非来自原始来源,”数据倡议的执行董事格雷格·莱珀特(Greg Leppert)说,他也是哈佛大学伯克曼·克莱因互联网与社会中心(Berkman Klein Center for Internet & Society)的首席技术专家。他说,这些藏书“可以追溯到实际收藏这些书籍的机构扫描的实物副本”。

在ChatGPT引发商业人工智能狂热之前,大多数人工智能研究人员并没有过多考虑他们从维基百科、社交媒体、有时甚至是盗版书库中提取的文本段落的来源。计算机科学家称之为符号的数据单位,每个符号可以代表一个单词的一部分。

哈佛大学新的人工智能训练集估计有2420亿个代币,这个数字对人类来说很难理解,但它仍然只是最先进的人工智能系统中输入的一小部分。例如,Facebook母公司Meta表示,其最新版本的人工智能大型语言模型经过了从文本、图像和视频中提取的30多万亿个代币的训练。

此外,Meta还在与喜剧演员莎拉•西尔弗曼(Sarah Silverman)和其他出版作家的诉讼作斗争,他们指控该公司从盗版作品的“影子图书馆”窃取他们的作品。

现在,有一些保留意见,真正的图书馆站起来了。

OpenAI今年向一些研究机构捐赠了5000万美元,其中包括牛津大学拥有400年历史的博德利图书馆(Bodleian Library),该图书馆正在对稀有文本进行数字化,并利用人工智能帮助转录。

波士顿公共图书馆是美国最大的图书馆之一,其数字和在线服务主管杰西卡·查普尔(Jessica Chapel)说,当该公司第一次与波士顿公共图书馆接触时,该图书馆明确表示,它数字化的任何信息都将面向所有人。

“OpenAI对大量的训练数据很感兴趣。我们对大量的数字对象感兴趣。所以这只是一种情况,事情是一致的,”查普尔说。

数字化是昂贵的。例如,波士顿图书馆扫描和整理数十份新英格兰地区的法语报纸是一项艰苦的工作,这些报纸在19世纪末和20世纪初被魁北克的加拿大移民社区广泛阅读。既然这些文本可以作为训练数据使用,它就可以为图书管理员想要做的项目提供资金。

查普尔说:“我们一直很清楚,‘嘿,我们是一家公共图书馆。“我们的藏品是供公众使用的,作为这个项目的一部分,我们数字化的任何东西都将公之于众。”

早在2006年,另一家科技巨头b谷歌就已经开始将哈佛大学的藏书数字化。b谷歌的一个有争议的项目是创建一个包含2000多万册图书的可搜索在线图书馆。

谷歌花了数年时间从作者到它的在线图书库,其中包括许多较新的和有版权的作品。2016年,美国最高法院维持了下级法院驳回版权侵权指控的裁决,最终解决了这一问题。

现在,谷歌第一次与哈佛大学合作,从谷歌图书中检索公共领域的书籍,并为向人工智能开发者发布这些书籍扫清了道路。美国的版权保护,对录音的保护时间更长。

所有这些对下一代人工智能工具有多大用处还有待观察,因为这些数据将于周四在hug Face平台上共享,该平台上有数据集和开源人工智能模型,任何人都可以下载。

与典型的人工智能数据源相比,藏书在语言上更加多样化。尽管欧洲语言仍占主导地位,尤其是德语、法语、意大利语、西班牙语和拉丁语,但英文书的数量还不到一半。

莱珀特说,一本沉浸在19世纪思想中的藏书,对于科技行业打造能够像人类一样进行规划和推理的人工智能代理的努力来说,也可能“非常关键”。

“在大学里,你有很多关于什么是理性的教育,”Leppert说。“你有很多关于如何运行流程和如何运行分析的科学信息。”

与此同时,也有大量过时的数据,从被揭穿的科学和医学理论到种族主义叙事。

哈佛大学图书馆创新实验室(Library Innovation Lab)协调员克里斯蒂·穆克(Kristi Mukk)说:“当你处理如此庞大的数据集时,会遇到一些关于有害内容和语言的棘手问题。”穆克说,该计划试图提供指导,以减轻使用数据的风险,“帮助他们做出明智的决定,负责任地使用人工智能。”

————

美联社和OpenAI允许OpenAI访问美联社的部分文本档案。

转载请注明出处: 百战复古180

本文的链接地址: http://3g.bzfg180.cn/post-2086.html

本文最后发布于2025年06月13日19:48,已经过了0天没有更新,若内容或图片失效,请留言反馈

()
您可能对以下文章感兴趣