此前,OpenAI最新推出的推理模型o3在数学基准测试中表现惊人,让不少人都为其强大的计算能力感到震惊。可消息还没传多久,随后就被曝出成绩可能建立在“作弊”的基础上。这一事件不仅引发了业内的广泛讨论,也让人们对AI模型的评估标准产生了质疑。
o3模型在刚发布的时候,其在FrontierMath的基准测试中正确率超过25%,相较于同类模型而言可以说是领先颇多。就拿OpenAI自己的o1模型来说,其当初的准确率就只有2%。但没过多久,LessWrong社区上一位名为“Meemi”的用户爆料称,OpenAI优秀的跑分成绩,可能是因为存在“泄题”的缘故。
为什么会这么说呢?因为FrontierMath本身就接受了OpenAI的支持。要知道,前两年围绕OpenAI经营策略的风波可是闹得沸沸扬扬,最终还是以服务商业化落幕。有了这个前提,OpenAI在一些内容的发布上确实会存在炒作之嫌。
不过,业界对于o3模型本身还是抱有较大期待的。对于如此显著的提升,目前主流的论调是认为o1模型本身在元链式思维机制上做了创新。但仅贫这个悬浮的论调,显然难以平息人们的之一。
不止是人们的猜疑,Epoch AI副主任在社交平台上也承认了OpenAI能够访问部分FrontierMath的数据。但为了保证测试的公正性,其还是保留了一部分未公开数据。虽然听上去确实能够作为背书,但却经不住推敲,毕竟未公开的数据是否作为验证的一环都不得而知。有了爆料在前,信任危机不可避免地会爆发开来。
OpenAI这次事件带来的影响,不仅是损害了其自身的声誉,也在一定程度上对整个AI行业产生了负面影响。作为AI领域的领头羊,其行为无疑给支持AI泡沫论的人提供了新的论据。在技术层面受到质疑,是OpenAI这类公司最担心的问题。
发表评论 取消回复