更新时间:作者:佚名
大家好,关于复旦大学高考数学大模型评测:阿里巴巴钱文、科大讯飞、星火击败GPT4o很多朋友都还不太明白,今天小编就来为大家分享关于的知识,希望对各位有所帮助!

在本次评价中,阿里巴巴钱文和科大讯飞Spark分别获得2024年高考新数学卷一第一名和第二名,新高考数学第二卷第二名和第一名。在两份试卷的评估中,GPT-4o排名第三。
复旦NLP团队认为,新发布的高考题具有高度原创性和保密性,是评估大型模型的优秀评估合集。在新卷一中,阿里钱文和科大讯飞Spark 对14 道客观数学题的准确率达到了70% 以上,大幅领先GPT-4o 的57%。字节豆宝、智浦轻言、百川等大型模型紧随其后,准确率超过50%。百度文心一言、腾讯元宝、Kimi等大型模型准确率较低。
在新卷二的评测中,科大讯飞Spark、阿里钱文、GPT-4o的准确率均超过60%。与其他大型车型的差距更小。除百川、DeepSeek、海螺外,准确率均在50%以上。
数学能力是GPT-4o一直引以为豪的能力模块。 OpenAI在5月14日的发布会上推出大语言模型GPT-4o时,重点展示了其数学能力。
在现场演示中,GPT-4o利用其实时图像识别和语音功能进行在线教学。从评测结果可以看出,阿里巴巴钱文和科大讯飞Spark对数学问题的深入理解和分析已经超越了GPT-4o,使得它们在回答高考数学题时更加准确。有网友表示,毕竟做数学题还是我们中国人的特长。
以阿里巴巴前文、科大讯飞Spark为代表的国内大规模人工智能模型在数学领域的突出能力,为未来人工智能技术在教育领域的应用提供了有力支撑。