美国技术巨头因用“盗版书”训练AI模型成被告

2023年 10月 19日 21:38:22AI资讯 AI产品来源：百家号评论256阅读模式

【新华社微特稿】美国阿肯色州前州长迈克·赫卡比与一些书籍作者联合起诉微软和“元”等美国技术企业，认为后者未经允许用他们的著作训练人工智能(AI)大语言模型，应给予赔偿。

据美国《华盛顿邮报》18日报道，赫卡比等人17日向纽约一家联邦法院递交诉状，指认美国微软、“元”和彭博新闻社三家被告在训练各自的大语言模型时，所用互联网数据未经原告许可。非营利组织“厄琉忒耳AI”也被列为本案被告。

原告指出，三家企业被告使用了盗版书数据集“书3”，该数据集被纳入“厄琉忒耳AI”编纂的免费开源数据集“堆”。小规模企业可经由“堆”获取训练AI模型的数据。

原告在要求赔偿的同时，还申请禁止被告企业继续使用他们的著作。

据报道，训练大语言模型通常需要数以十亿计的互联网文本语句，这些文本语句大多来自新闻报道、网络百科和社交媒体评论等。开放人工智能研究中心(OpenAI)、谷歌和微软等企业没有披露使用哪些数据集，但对AI持批评态度的人一直质疑，数据集包含盗版书数据。

类似的诉讼还有多起。创作者一方认为，企业不能未经允许或不支付报酬就从互联网获取数据，用来训练其获利颇丰的AI模型。企业一方则认为，数据如果与其原始来源存在实质性区别，依据版权法规可免费从公共网络获取。（完）（海洋）

关键词：“书3”(books3)、“堆”(the pile)、“厄琉忒耳AI”(EleutherAI)

特别声明：以上内容（如有图片或视频亦包括在内）为自媒体用户上传并发布，仅代表该作者或机构观点，不代表AI物的观点或立场，AI物仅提供信息发布平台。
特别提示：阅读原文，请点击标题下的“来源：XXX（链接）”或文后“版权声明”处“本文源自XXX（链接）”

我的微信

AI物微信

微信扫一扫

百万奖池！2023第一届企业级AI应用创新大赛正式开赛