更新时间:作者:小小条
“ 导读 ” 近日,李开复创办的零一万物在LMSYS榜单上荣获国内第一的消息,引起了广泛关注。

// 资讯速读.
零一万物“Yi-Large”模型,在LMSYS发布的Chatbot Arena榜单取得了世界第七、中国第一的成绩,排名超过了阿里通义千问、清华智谱。
然而,这次的胜利是否能洗刷之前的套壳传言,仍然引发了不少质疑。
// LMSYS榜单.
LMSYS的Chatbot Arena测评体系,以其公正和透明著称。
该榜单采用“盲测”手段,测评问题由用户在官网输入,多个大模型同时返回结果,用户根据AI的回答效果对大模型进行匿名投票。
这种模式确保了测评结果的公平性,因为模型厂商无法提前预知问题,进行针对性训练。
相比之下,其他测评方法如SuperCLUE、HELM等,使用的数据集是固定的,模型厂商可以提前针对这些数据集进行训练,从而在测评中获得更高的分数。
但Chatbot Arena由用户进行提问和打分,其问题的全面性和专业性,难以完全保证。
我曾写过文章《1分钟看懂「大模型跑分榜」》,对跑分机制感兴趣的朋友可以看一下。
// 套壳风波.
尽管“Yi-Large”模型本次取得了优异的成绩,但零一万物模型曾经卷入套壳风波。
此前,国内外均有报道称:零一万物使用了Meta的开源模型Llama,并进行了变量名修改。这种做法被业内批评为“套壳”,即通过重命名变量来掩盖模型基础的真实来源。
李开复对使用Llama的原因进行了解释,称只是为了进行对比研究,Yi-6B和Yi-34B模型都是从0开始训练,进行了大量原创性优化,但质疑声仍然存在。
// 套壳效果如何.
套壳能否得到效果好的模型?答案是肯定的。
斯坦福大学的“羊驼”模型就是一个典型案例。
斯坦福团队使用Llama作为基础,然后列出了一系列问题,通过API让ChatGPT回答,以此生成了52K的问答训练数据。随后在8块A100上训练了3小时,租显卡和API的成本花费不到600美元,就生成了性能媲美GPT-3.5的模型。
所以说,这种方法不仅成本低廉,而且效果显著。
国内不少模型都采用过类似的做法。例如,字节跳动曾因使用ChatGPT的回答来训练数据,被官方封禁账号。
然而,套壳模型也存在很大弊端!
虽然短期内可以获得不错的效果,但长期来看,这种方法会限制模型的后续迭代升级。而且为了避免“被发现”是套壳,团队需要花费大量精力清洗变量,不仅费时费力,还可能影响模型的性能。
// 国人骄傲 or 罗生门.
李开复此次在LMSYS榜单上的胜利,本该成为国人的骄傲,但却因为此前的风波,被质疑是否是另一次罗生门?
我们期待大模型厂商以诚信为基石,透明公正地展示其技术实力。只有这样,才能更加坚定公众对国内AI发展的信心。
期待未来更多的国内AI企业能够在公平公正的竞争环境中脱颖而出,为中国的AI科技创新贡献更多力量和惊喜!
“ See you ” 我是一名AI从业者 | 大学生AI产品导师。如果你偏爱以轻松的方式了解AI领域的最新动态,欢迎关注我!
欢迎一键三连
版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除