OpenAI新模型跑分成绩存疑，提前看了题目？

6820 阅读 0 评论 64 点赞来源：网友投稿

此前，OpenAI最新推出的推理模型o3在数学基准测试中表现惊人，让不少人都为其强大的计算能力感到震惊。可消息还没传多久，随后就被曝出成绩可能建立在“作弊”的基础上。这一事件不仅引发了业内的广泛讨论，也让人们对AI模型的评估标准产生了质疑。

o3模型在刚发布的时候，其在FrontierMath的基准测试中正确率超过25%，相较于同类模型而言可以说是领先颇多。就拿OpenAI自己的o1模型来说，其当初的准确率就只有2%。但没过多久，LessWrong社区上一位名为“Meemi”的用户爆料称，OpenAI优秀的跑分成绩，可能是因为存在“泄题”的缘故。

为什么会这么说呢？因为FrontierMath本身就接受了OpenAI的支持。要知道，前两年围绕OpenAI经营策略的风波可是闹得沸沸扬扬，最终还是以服务商业化落幕。有了这个前提，OpenAI在一些内容的发布上确实会存在炒作之嫌。

不过，业界对于o3模型本身还是抱有较大期待的。对于如此显著的提升，目前主流的论调是认为o1模型本身在元链式思维机制上做了创新。但仅贫这个悬浮的论调，显然难以平息人们的之一。

不止是人们的猜疑，Epoch AI副主任在社交平台上也承认了OpenAI能够访问部分FrontierMath的数据。但为了保证测试的公正性，其还是保留了一部分未公开数据。虽然听上去确实能够作为背书，但却经不住推敲，毕竟未公开的数据是否作为验证的一环都不得而知。有了爆料在前，信任危机不可避免地会爆发开来。

OpenAI这次事件带来的影响，不仅是损害了其自身的声誉，也在一定程度上对整个AI行业产生了负面影响。作为AI领域的领头羊，其行为无疑给支持AI泡沫论的人提供了新的论据。在技术层面受到质疑，是OpenAI这类公司最担心的问题。

本文分类：科技资讯
本文标签：科技互联网 OpenAI
浏览次数：6820 次浏览
发布日期：2025-02-06 17:44:17
本文链接：https://juguan365.com/keji/12131.html
声明：本站所有资源均是网上搜集或网友上传提供，本站内容仅供观摩学习交流之用，将不对任何资源负法律责任，如有侵权请及时联系我们，本站将在核实后立即删除。

上一篇 > 车路云一体化与人工智能的深度融合
下一篇 > 高端机卷影像，低端机也受益

评论列表共有 0 条评论

暂无评论

OpenAI新模型跑分成绩存疑，提前看了题目？

ChatGPT为首的生成式AI，正在重塑互联网

验证码从“守护者”变为谷歌标注数据的工具？

老电脑也能跑AI，AI PC真的必要吗

Steam拒绝接入IAA，保持纯净的游戏体验

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复