OpenAI的数据采集是否是在剽窃人们的创意？

6115 阅读 0 评论 56 点赞来源：网友投稿

在互联网时代，公开的内容极其容易被他人剽窃。人尚且如此，机器的采集则更加防不胜防。

对大模型开发而言，训练数据的数量与质量对模型有巨大的影响，因此当前的大模型开发对于数据采集有着较高的依赖性。但这些被采集的内容不少来自公域互联网，像OpenAI这样的企业并没有为其付费的打算。

针对这一问题，OpenAI在一场针对版权问题的诉讼中阐明道，自己使用的是合法公开的网络数据，并未将其运用在非法用途，因此是合理的。

如果我们按照这个逻辑来看，当前互联网上的任何内容都有可能被AI采集，成为训练数据的一部分。即便这些内容你并未授权其使用，但也仍旧会被剽窃走创意。

不止是一般民众的内容，作为OpenAI重要的数据库来源，《纽约时报》过往发表的数百万篇文章都被的OpenAI运用其训练聊天机器人。但相关的内容创作者，并未收到任何稿费、版权相关的费用。粗略统计，OpenAI光从此项活动中，就能够获利数十亿美元的利润。

OpenAI在当前的发展模式，无疑是高度依赖数据收集，这其中自然也包括一些受版权保护的内容。不过，他们并不认为这是可持的行为，因为如果不使用这些高质量数据，就不可能训练出优秀的AI。

当然，针对OpenAI利用搜索引擎采集数据的行为，谷歌也没少跟它掰扯。先前OpenAI采集油管的数据时，就遭到了谷歌的警告，并宣传要限制其数据采集。

AI的运用确实方便了我们的日常生活，但相对的，当下利用AI生成的无意义内容正在污染互联网数据，其蕴藏的价值正逐步降低。但AI发展已是必然的趋势，从长久来看，它仍旧有可能成为人类开启下个世代的关键。

暂无评论