在互联网时代,公开的内容极其容易被他人剽窃。人尚且如此,机器的采集则更加防不胜防。


对大模型开发而言,训练数据的数量与质量对模型有巨大的影响,因此当前的大模型开发对于数据采集有着较高的依赖性。但这些被采集的内容不少来自公域互联网,像OpenAI这样的企业并没有为其付费的打算。



针对这一问题,OpenAI在一场针对版权问题的诉讼中阐明道,自己使用的是合法公开的网络数据,并未将其运用在非法用途,因此是合理的。


如果我们按照这个逻辑来看,当前互联网上的任何内容都有可能被AI采集,成为训练数据的一部分。即便这些内容你并未授权其使用,但也仍旧会被剽窃走创意。



不止是一般民众的内容,作为OpenAI重要的数据库来源,《纽约时报》过往发表的数百万篇文章都被的OpenAI运用其训练聊天机器人。但相关的内容创作者,并未收到任何稿费、版权相关的费用。粗略统计,OpenAI光从此项活动中,就能够获利数十亿美元的利润。



OpenAI在当前的发展模式,无疑是高度依赖数据收集,这其中自然也包括一些受版权保护的内容。不过,他们并不认为这是可持的行为,因为如果不使用这些高质量数据,就不可能训练出优秀的AI。


当然,针对OpenAI利用搜索引擎采集数据的行为,谷歌也没少跟它掰扯。先前OpenAI采集油管的数据时,就遭到了谷歌的警告,并宣传要限制其数据采集。



AI的运用确实方便了我们的日常生活,但相对的,当下利用AI生成的无意义内容正在污染互联网数据,其蕴藏的价值正逐步降低。但AI发展已是必然的趋势,从长久来看,它仍旧有可能成为人类开启下个世代的关键。

点赞(56)

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部