ChatGPT面临销毁?GPT-4被曝逐字照抄原文,OpenAI或将赔偿数十亿美元今天,OpenAI和微软正式被《纽约时报》起诉!索赔金额,达到了数十亿美元。指控内容是,Open...

贴文 2个月前
1K 0

ChatGPT面临销毁?GPT-4被曝逐字照抄原文,OpenAI或将赔偿数十亿美元

今天,OpenAI和微软正式被《纽约时报》起诉!索赔金额,达到了数十亿美元。

指控内容是,OpenAI和微软未经许可,就使用纽约时报的数百万篇文章来训练GPT模型,创建包括ChatGPT和Copilot之类的AI产品。

并且,要求销毁「所有包含纽约时报作品的GPT或其他大语言模型和训练集」。

酝酿了几个月,该来的终于来了。

此案涉及到的,是AI技术和版权法之间的复杂关系。大模型爆火之后,业界一直未能有明确的立法,对于AI侵犯版权给出界定。

纽约时报打响的这一炮,可以说是迄今为止规模最大、最具有代表性和轰动性的案例。在整个生成式AI历史上,这必定是一件具有重大意义的事件,标志着人工智能和版权的分水岭。

起诉文件中,《纽约时报》的关键争议之一是ChatGPT训练权重最大的数据集——公共爬虫网站Common Crawl。其中2019年数据快照中,NYT的内容占比1亿个token。

纽约时报甩出的证据,让OpenAI哑口无言。

左边是GPT-4输出的句子,右边是纽约时报的原文,红色是重叠的部分。这种程度的逐字抄袭,简直是让人倒吸一口凉气。

OpenAI这一关,怕是难过了。

GPT-4被曝照搬原文

起诉书明确提出OpenAI侵犯版权的指控,并强调了《纽约时报》的文章和ChatGPT输出内容之间高度相似性。

「被告试图搭纽约时报对新闻业巨额投资的便车,无偿使用纽约时报的内容来创造它的替代品,并从中窃取读者。」

文件中,NYT提供了许多关键事实。比如,NYT是Common Crawl中用于训练GPT的最大的专有数据集。

从下表中,可以看出有1750亿参数的GPT-3训练数据中,大部分的数据集都来自Common Crawl,所占权重高达60% 网页链接

暂无评论

暂无评论...