本文作者:访客

智源研究院“百模”评测结果:字节跳动多项第一

访客 2024-12-23 14:02:35 739
智源研究院“百模”评测结果:字节跳动多项第一摘要: 智源研究院百模评测结果。2024年12月19日,智源研究院举办了一场秋冬评测发布会,其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献,并根据对手的论点进行反击。尽管这...

智源研究院百模评测结果。2024年12月19日,智源研究院举办了一场秋冬评测发布会,其中一场大模型辩论赛引人注目。参与辩论的大模型能够引用经典文献,并根据对手的论点进行反击。尽管这些大模型的表现与真人辩手仍有差距,但这场辩论展示了大模型的能力。

智源研究院“百模”评测结果:字节跳动多项第一,大厂AI整体领先

同一天,智源研究院发布了国内外100多个开源和商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的综合及专项评测结果。相比5月份的评测,此次新增了数据处理、高级编程和工具调用能力的任务,还首次增加了面向真实金融量化交易场景的应用能力评估,以及基于模型辩论的对比评估方式,以深入分析模型的逻辑推理、观点理解和语言表达能力。

智源研究院“百模”评测结果:字节跳动多项第一

此次评测发现,2024年下半年大模型发展呈现三个特点:一是厂商更注重提升大模型的综合能力和实用性;二是多模态模型迅速发展,新厂商和新模型不断涌现,而语言模型的发展逐渐放缓;三是大模型开源生态中出现了新的贡献者。

智源研究院“百模”评测结果:字节跳动多项第一

在文本、语音、图片、视频理解与生成方面,评测结果显示,国内头部语言模型在复杂场景任务中的表现仍落后于国际一流模型。字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力主观评测中名列前茅,而在客观评测中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest位列前茅。

智源研究院“百模”评测结果:字节跳动多项第一

对于视觉语言多模态模型,虽然架构趋同,但表现各异。一些较好的开源模型在图文理解任务上缩小了与闭源模型的差距,但仍需提升长尾视觉知识和文字识别能力。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现突出。

智源研究院“百模”评测结果:字节跳动多项第一

文生图模型方面,参评的头部模型已具备中文文字生成能力,但在处理复杂场景人物变形、常识性推理任务和中国文化相关任务时仍存在不足。腾讯Hunyuan Image在此领域领先。

智源研究院“百模”评测结果:字节跳动多项第一

文生视频模型生成的视频画质提升显著,动态性和镜头语言更加丰富,但仍存在动作变形等问题。快手可灵1.5(高品质)等模型排名靠前。

智源研究院“百模”评测结果:字节跳动多项第一

语音语言模型得益于文本大模型的进步,性能大幅提升。阿里巴巴Qwen2-Audio位居第一,其他如香港中文大学&微软WavLLM、清华大学&字节跳动Salmon也表现出色。

智源研究院“百模”评测结果:字节跳动多项第一

此外,智源联合北京市海淀区教师进修学校编制了K12全学段多学科试卷,以考察大模型与人类学生的能力差异。模型在K12学科测验中的得分有所提高,但在理科科目上仍偏弱。

FlagEval大模型“角斗场”支持多种任务的自定义在线或离线盲测,用户对模型响应时间和输出内容格式有更高要求。通过FlagEval Debate平台,智源进一步评估了大模型的辩论能力,发现大多数模型缺乏整体逻辑阐述能力,且存在论据不严谨的问题。

在金融量化交易领域的应用方面,评测显示大模型已能生成有回撤收益的策略代码,接近初级量化交易员水平。深度求索Deepseek-chat、OpenAI GPT-4o-2024-08-06和Google Gemini-1.5-pro-latest在这一领域表现优异。

智源的大模型评测平台FlagEval经过多次迭代,覆盖了全球800多个开闭源模型,包含20多种任务和90多个评测数据集。智源与多家高校和机构合作共建了多个评测集,以确保评测的全面性和准确性。

智源研究院副院长林咏华表示,衡量一个模型应从多个角度出发,建议用户根据自身需求选择合适的模型。排行榜上的微小分数差异不应影响用户的选择。未来,FlagEval评测体系将继续创新,为大模型技术生态提供有力支持。

阅读
分享