网站首页
手机版

OpenAI夺金IOI,但输给3位中国高中生

更新时间:作者:小小条

西风 发自 凹非寺

量子位 | 公众号 QbitAI

刚刚,OpenAI官宣:IOI金牌收入囊中!

OpenAI夺金IOI,但输给3位中国高中生

其推理模型在今年IOI线上竞赛中成绩刷新纪录:

总分533.29,在全球330名人类选手中总排名位列第六;而在所有AI参赛者中,稳居第一。

PS:AI没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高级中学)、陈昕阳(杭州第二中学)。

有意思的是,OpenAI表示,这次并未为IOI训练新的参赛模型,而是集成了多个通用推理模型参赛。

并且这个夺金系统和前不久OpenAI自称在IMO中夺金的,还是同一个。

从成绩上来说,此AI推理系统相比去年模型在IOI上的表现进步了不止一点半点。

IOI 2024 OpenAI还专门在o1基础上进行针对性训练,最终得到的o1-ioi,在严格的比赛规则下仅拿到213分。

今年靠通用模型直接夺金,排名大跃升,网友直呼震撼。

不过,前段时间OpenAI自称模型拿下IMO金牌一事引发不少争议,这次面对IOI的成绩,网友们明显谨慎了许多:

到底是真的很了不起的成就,还是又一个营销噱头……

与此同时,还有不少网友喊话“还我4o”。

更有意思的是,马斯克突然发布了IOI Benchmark排名,结果显示Grok 4在编码方面超越GPT-5获得第一(doge)。

来看这次OpenAI推理系统夺金细节。

和人类一样,5小时、50次限制

IOI(国际信息学奥林匹克竞赛)作为是全球中学生计算机科学领域的最高级别赛事,有着严苛且标准化的赛制:

参赛学生需历经2天赛程,每天在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料,最终提交C++代码方案,由隐藏测试用例自动评分。

IOI 2025总共有来自84个国家的330名参赛者参赛。满分600分,金牌分数线是438.30分,最终只有28名参赛者获得金牌。

OpenAI表示他们正式参加了IOI的线上AI赛道,规则和人类参赛者一样,有5小时的时间限制和50次的提交次数限制。

并且AI系统在竞赛过程中全程未使用互联网或检索增强生成(RAG)技术,仅能使用基础的终端工具。

具体来说,他们整合了几个强大的推理模型,生成候选程序,运行这些程序,然后提交最优解。唯一的辅助工作是:挑选要提交的尝试内容,并与竞赛API交互。

在IOI线上AI赛道中,通过API获取题目并提交解答,不会接受竞赛组织者的直接监督。

OpenAI最新AI推理系统的表现超越98%的参赛者,不论是成绩还是方法上都和去年形成鲜明对比。

在IOI 2024中,OpenAI使用了o1-ioi模型,这是一个在o1基础上针对编程任务进行强化学*微调的专用模型。

o1-ioi严重依赖一套复杂且由人工设计的test-time推理策略(类似AlphaCode的人工设计的test-time推理策略),包括:

为每个子任务生成10000个候选解基于模型自生成的测试用例对解法进行聚类和排序结合学*到的评分函数来筛选最终提交的50个方案

尽管投入了大量工程技巧,o1-ioi在IOI 2024中仅获得213分,排名第49百分位,与铜牌失之交臂。

One More Thing

谢赛宁团队前段时间推出了一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试——LiveCodeBench Pro。

GPT-5最新测试成绩出炉:

GPT-5 Thinking在2025年第一季度的测试组中完成了突破,是唯一一个解出难题分组的模型,而且这还不是更高级的“Thinking Pro”版本。

平均响应长度方面,GPT-5超过10万token,是o3的3倍。

参考链接:
[1]https://x.com/OpenAI/status/1954969035713687975
[2]https://x.com/rohanpaul_ai/status/1954992741101998099
[3]https://x.com/wenhaocha1/status/1954751124050989213
[4]https://x.com/elonmusk/status/1955047197487272362

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

为您推荐

夜谈丨国产支线客机,TA来了

5月15号上午,注册号为B-605V的江西航空“井冈山号”ARJ21国产支线客机从江西省吉安市井冈山机场起飞,并于11时40分在南昌市昌北国际机场降落,成功完成首航任务。江西航空是华东

2026-01-19 05:13

山东航空到底能卖多少钱?

最近,国内四大地方航空之一,全国规模排名第8的山东航空,这家国内老牌的地方航空的遭遇有些令人同情。 因为在90年中期成立,当前正直风华正茂的青年时期的山东航空遭遇了前所未

2026-01-19 05:13

历时5年,C919试飞任务多复杂?进入取证阶段,最大困难是什么?

近期,国产大飞机C919可谓喜报频频,在8月1日建军节当天,其主制造商中国商飞公司就发布贺电庆祝其完成了取证试飞。这就意味着C919已经圆满完成全部试飞任务,接下来开始全力向“取

2026-01-19 05:12

法国国立教育和私立教育怎么样

法国的国立教育非常发达,管理完善。它由教育部控制。课程以法语进行,但整个系统可能会教授其他几种语言,包括英语。如果您的孩子需要法语培训才能上公立学校,可以在本地组织(通

2026-01-19 05:12

《冰糖炖雪梨》太上头!2020年还有这9部甜宠剧值得期待

从《锦衣之下》到《下一站是幸福》再到《冰糖炖雪梨》,2020年开年几部热播剧都被甜宠剧承包了。撒糖无极限,越看越上头的甜宠剧风头正盛。这不,2020年还有9部备受期待的甜宠剧

2026-01-19 05:11

《罚罪2》女性群像封神:不做陪衬,凭实力撑起正邪博弈半边天

在男性角色主导的传统罪案剧市场中,《罚罪2》以破局之势改写叙事规则。开播至今,该剧数据表现亮眼,开播首日热度突破7500,后续一路走高,12月30日更是以14.6%的云合数据登顶,成为年

2026-01-19 05:11