智源研究院“百模”评测结果：字节跳动多项第一

访客 2024-12-23 14:02:35 739

默认

摘要： 智源研究院百模评测结果。2024年12月19日，智源研究院举办了一场秋冬评测发布会，其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献，并根据对手的论点进行反击。尽管这...

智源研究院百模评测结果。2024年12月19日，智源研究院举办了一场秋冬评测发布会，其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献，并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距，但这场辩论展示了大模型的能力。

同一天，智源研究院发布了国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的综合及专项评测结果。相比5月份的评测，此次新增了数据处理、高级编程和工具调用能力的任务，还首次增加了面向真实金融量化交易场景的应用能力评估，以及基于模型辩论的对比评估方式，以深入分析模型的逻辑推理、观点理解和语言表达能力。

此次评测发现，2024年下半年大模型发展呈现三个特点：一是厂商更注重提升大模型的综合能力和实用性；二是多模态模型迅速发展，新厂商和新模型不断涌现，而语言模型的发展逐渐放缓；三是大模型开源生态中出现了新的贡献者。

在文本、语音、图片、视频理解与生成方面，评测结果显示，国内头部语言模型在复杂场景任务中的表现仍落后于国际一流模型。字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主观评测中名列前茅，而在客观评测中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。

对于视觉语言多模态模型，虽然架构趋同，但表现各异。一些较好的开源模型在图文理解任务上缩小了与闭源模型的差距，但仍需提升长尾视觉知识和文字识别能力。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

文生图模型方面，参评的头部模型已具备中文文字生成能力，但在处理复杂场景人物变形、常识性推理任务和中国文化相关任务时仍存在不足。腾讯Hunyuan Image在此领域领先。

文生视频模型生成的视频画质提升显著，动态性和镜头语言更加丰富，但仍存在动作变形等问题。快手可灵1.5（高品质）等模型排名靠前。

语音语言模型得益于文本大模型的进步，性能大幅提升。阿里巴巴Qwen2-Audio位居第一，其他如香港中文大学&微软WavLLM、清华大学&字节跳动Salmon也表现出色。

此外，智源联合北京市海淀区教师进修学校编制了K12全学段多学科试卷，以考察大模型与人类学生的能力差异。模型在K12学科测验中的得分有所提高，但在理科科目上仍偏弱。

FlagEval大模型“角斗场”支持多种任务的自定义在线或离线盲测，用户对模型响应时间和输出内容格式有更高要求。通过FlagEval Debate平台，智源进一步评估了大模型的辩论能力，发现大多数模型缺乏整体逻辑阐述能力，且存在论据不严谨的问题。

在金融量化交易领域的应用方面，评测显示大模型已能生成有回撤收益的策略代码，接近初级量化交易员水平。深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在这一领域表现优异。

智源的大模型评测平台FlagEval经过多次迭代，覆盖了全球800多个开闭源模型，包含20多种任务和90多个评测数据集。智源与多家高校和机构合作共建了多个评测集，以确保评测的全面性和准确性。

智源研究院副院长林咏华表示，衡量一个模型应从多个角度出发，建议用户根据自身需求选择合适的模型。排行榜上的微小分数差异不应影响用户的选择。未来，FlagEval评测体系将继续创新，为大模型技术生态提供有力支持。

标签：模型字节

分享