分不清9.9与9.11谁大？大模型数学能力堪忧

每经记者可杨每经编辑梁枭

13.11%和13.8%哪个大？9.9和9.11哪个大？

两道小学数学难度的题目难倒了众多主流大模型，在比大小的过程中，不少大模型给出了错误的答案。此外，此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，主流大模型被要求计算企业营业收入复合增长率时，没有一家大模型计算出正确答案。

7月17日，有大模型企业人士向记者表示，对于大模型而言，这不是很难解决的技术问题，只要“喂”了这方面的数据，就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

大模型比大小“翻车”

由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域，也成了一场针对大模型数学能力的小测。

在《每日经济新闻》记者7月17日的测试中，对于13.11%与13.8%谁大的问题，除了智谱清言外，文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。

大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示，在比较13.11%和13.8%时，13.11%是更大的数值。这是因为当比较两个百分数时，首先比较整数部分，如果它们相同，则比较小数部分。在这里，两个数的整数部分都是13，但13.11的小数部分11大于13.8的小数部分8，因此13.11%大于13.8%。

从推理过程判断，可能由于小数点后数位不同，大模型在比较过程中产生了幻觉。经过两轮提问后，智谱清言给出了正确回答。

当记者把问题换成“9.9与9.11谁大”，零一万物的万知大模型等同样在一开始给出了错误答案，当记者进一步追问“9.11减9.9等于多少”，甚至有大模型给出了“0.21”的答案。

万知大模型的推理过程稍显混乱：在比较9.9和9.11时，由于整数部分都是9，所以比较小数点后的第一位数字。9.9的小数点后第一位是9，而9.11的小数点后第一位是1。由于9小于10，所以在比较小数点后第二位数字时，9.9的小数点后第二位是0（隐含的），而9.11的小数点后第二位是1。因此，9.9的小数点后第二位数字（隐含的0）小于9.11的小数点后第二位数字（1），所以9.9小于9.11。

随后，记者向大模型提问：为何会出现有大模型认为13.11大于13.8的情况？

ChatGPT给出的回答显示，出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括：数值理解错误，有时系统可能会误解数字的小数点位置；字符串比较，如果直接按字符串比较，可能会出现错误。因为字符串比较是按字符顺序逐一比较的，而不是按数值比较；代码实现错误，在编程中，可能存在比较逻辑或转换错误。

文心一言给出的解答则是，训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面，即大模型在训练过程中，可能接触到了大量包含数字的数据，但这些数据并不总是以比较大小为目的。例如，数字可能出现在版本号、股票代码、基金表现、汇率等上下文中，这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足，模型可能无法学习到正确的比较规则。

另一方面，可能由于大模型在处理输入文本时，将数字视为字符序列，而不是具有数值意义的实体。因此，在比较数字大小时，模型可能没有正确地将其转换为数值进行比较。另外，模型在处理小数时可能存在困难，特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。

这个问题不难解决

7月17日，有大模型企业人士在接受记者电话采访时表示，对于大模型而言，这不是很难解决的技术问题，只要“喂”了这方面的数据，其实就能得到准确的答案，只不过大部分的大模型厂商没有把这方面的训练作为重心，所以可能会出现上述不准确的回答。

这也并非大模型的数学能力首次受到关注。

6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告（第1期）》中，对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中，当被要求计算营业收入复合增长率时，没有一家大模型计算出正确答案。

综合来看，Anthropic Claude 3 Opus表现最为出色，以总分136分高居榜首。该模型在计算题的任务一（同比增长率计算）和任务二（毛利率计算）中均获得了较高的分数，但在任务三（复合增长率计算）中未能给出正确答案。

幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”，以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好，但在任务三中也未能给出正确答案。不过，在计算复合增长率的任务中，尽管其答案有误，但已掌握了正确的公式。

零一万物Yi-Large的总分达到了126.4分，该模型尽管“分析写作题”得分略逊一筹，但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时，同样给出了错误答案，但也给出了正确的公式。

主题测试文章，只做测试使用。发布者：读懂财经，转转请注明出处：https://www.cnust.com/19/10/5115.html

分不清9.9与9.11谁大？大模型数学能力堪忧

发表回复

联系我们

400-800-8888

分不清9.9与9.11谁大？ 大模型数学能力堪忧

相关推荐

紫光同芯推出全球首颗开放式架构安全芯片E450R 已获国密二级认证

京东又官宣，涨薪！零售集团和职能体系将用两年时间实现20薪，二季度净利润145亿，同比增长69%

润达医疗：即将与华为云发布大模型原生解决方案

星舰成功实现“筷子夹火箭” 马斯克：这是没有虚构成分的科幻小说

传苹果已批准腾讯本周提交的针对iOS生态系统的微信更新

发表回复

联系我们

400-800-8888

分不清9.9与9.11谁大？大模型数学能力堪忧