复旦大学高考数学大模型评测：阿里巴巴钱文、科大讯飞、星火击败GPT4o

更新时间：作者：佚名

大家好，关于复旦大学高考数学大模型评测：阿里巴巴钱文、科大讯飞、星火击败GPT4o很多朋友都还不太明白，今天小编就来为大家分享关于的知识，希望对各位有所帮助！

在本次评价中，阿里巴巴钱文和科大讯飞Spark分别获得2024年高考新数学卷一第一名和第二名，新高考数学第二卷第二名和第一名。在两份试卷的评估中，GPT-4o排名第三。

复旦NLP团队认为，新发布的高考题具有高度原创性和保密性，是评估大型模型的优秀评估合集。在新卷一中，阿里钱文和科大讯飞Spark 对14 道客观数学题的准确率达到了70% 以上，大幅领先GPT-4o 的57%。字节豆宝、智浦轻言、百川等大型模型紧随其后，准确率超过50%。百度文心一言、腾讯元宝、Kimi等大型模型准确率较低。

在新卷二的评测中，科大讯飞Spark、阿里钱文、GPT-4o的准确率均超过60%。与其他大型车型的差距更小。除百川、DeepSeek、海螺外，准确率均在50%以上。

数学能力是GPT-4o一直引以为豪的能力模块。 OpenAI在5月14日的发布会上推出大语言模型GPT-4o时，重点展示了其数学能力。

在现场演示中，GPT-4o利用其实时图像识别和语音功能进行在线教学。从评测结果可以看出，阿里巴巴钱文和科大讯飞Spark对数学问题的深入理解和分析已经超越了GPT-4o，使得它们在回答高考数学题时更加准确。有网友表示，毕竟做数学题还是我们中国人的特长。

以阿里巴巴前文、科大讯飞Spark为代表的国内大规模人工智能模型在数学领域的突出能力，为未来人工智能技术在教育领域的应用提供了有力支撑。

上一篇：留学预科可靠吗？什么是预科教育？预备制度是怎样的？

下一篇：复旦大学官宣！ 2024年新增优秀青年1名、优秀青年1名

美国留学