三月系列苹果盘问员质疑大模子！咱们测试了6款，发现了4大真相

两性故事

三月系列苹果盘问员质疑大模子！咱们测试了6款，发现了4大真相

发布日期：2024-10-17 11:10 点击次数：82

开首：雷科技 AI 硬件组 | 剪辑：失魂引 | 排版：JAY三月系列

汽车业务失利后，苹决然定加码生成式 AI，并将部分汽车部门的职工调到了 AI 部门。但是对待 AI，苹果似乎不如百度、讯飞、OpenAI、xAI 等国表里企业那么自信。

日前，苹果盘问员发布了一篇名为《露出大谈话模子中数学推理局限性》的论文，质疑大谈话模子的数学推理能力，甚而以为大谈话模子不具备确凿的推理能力。

苹果盘问员在论文中举了一个简便的例子，向大模子提倡问题"奥利弗周五摘了 44 个奇异果，周六摘了 58 个奇异果。周日，他摘的奇异果是周五的两倍。奥利弗一共摘了若干个奇异果？"此时大谈话模子皆能正确商酌出谜底。

（图源：豆包 AI 生成）

但当盘问东谈主员为问题增添了一句修饰语"周日，他摘的奇异果是周五的两倍，其中 5 个比平均小"时，部分大模子就给出了不实的谜底，倾向于减掉这五个比较小的奇异果。

在大谈话模子的使用经过中，小雷也遭受过大模子"抽风"的情况，某个大谈话模子甚而连最基础的乘法皆能算错。不外大谈话模子一直在上前发展，许多曾时时犯的不实，皆已被新时间处罚。

苹果盘问员吐槽大谈话模子数学推理能力不行，究竟是情况属实，照旧为自家 AI 时间逾期找借口？实测事后，咱们有了论断。

哪些大谈话模子

能恢复苹果的问题？

本次大谈话模子对比评测，小雷收受了巨匠名气较高的六款居品，包括：1、GPT-4o；2、讯飞星火大模子；3、豆包；4、Kimi；5、文心 3.5 五款大模子；6、GPT-4o mini。由于文心大模子 4.0 收费，其他大谈话模子则免费（GPT-4o 逐日有免费发问次数），因此为了平正起见，小雷收受了免费的文心大模子 3.5。

谈天未几说，咱们径直进入测试阶段。

一、奇异果问题：文心完败

第一轮测试的问题，咱们收受了苹果盘问员提到的奇异果问题（正确谜底：190 个）。站在东谈主类的视角，奇异果的大小并不影响商酌数目，但在大谈话模子的视角中，情况却发生了变化。

本轮测试中，五款大谈话模子有四款通过了锻真金不怕火，其中豆包和 Kimi 专诚提示，奇异果的大小并不影响商酌总和。GPT-4o 天然也正确商酌出了总和，但可能是因为"平均"两个字的翻译问题，还求出了三天平均每天摘取奇异果的数目。唯独莫得得出正确谜底的大模子是文心大模子 3.5，将五个体型小的奇异果遗弃，得到了摘取 185 个奇异果的不实谜底。

（图源：GPT 截图）

（图源：讯飞星火截图）

（图源：豆包截图）

（图源：Kimi 截图）

（图源：文心一言截图）

苹果盘问员的论文，提到了 GPT-4o mini 商酌该问题时出错，切换至该模子后，小雷又商酌了一遍这谈题，竟然如斯，GPT-4o mini 也给出了不实谜底。

（图源：GPT-4o mini 截图）

难谈大谈话模子商酌数学题的准确性，与其参数目呈正干系？GPT-4o mini 属于小模子，更追求低成本和快速反映，参数目远弗成与 GPT-4o 比较，在推理数知识题时，参数目的差距导致 GPT-4o 与 GPT-4o mini 商酌成果不同。

文心大模子相似如斯，尽管莫得官方数据，但 4.0 版块的推理成本相较于 3.5 版块展望提高了 8-10 倍，3.5 版的参数目之小显而易见。

二、公交车问题：文心完胜

本轮测试的题目是一起行测数学题，具体本色为：

由于国庆节的到来，某旅游城市的搭客数目大幅高潮，公交公司决定简化公交车的澄澈，裁汰单程时期。现存 1、2、3 路公交车，于上昼 7 点同期从车站发车，三辆公交车再次回到车站所用时期离别为 30 分钟、45 分钟、60 分钟。这三辆公交车中间约束息，请示第二次它们同期到达车站将是几点？（正确谜底：13 点）

这轮测试所得出的成果，让小雷惊掉了下巴。在测试中，小雷衔接测试四款大模子，成果全部商酌不实，那时唯独莫得出错的大谈话模子即是文心 3.5。

鉴于文心 3.5 在第一轮的阐扬，小雷莫得对文心 3.5 抱有任何期待，但我不看好它的时候，文心 3.5 偏巧就争脸了，并成为唯独解出正确谜底的大谈话模子。后续小模子 GPT-4o mini 在测试中，也没能给出正确谜底。

（图源：GPT 截图）

（图源：讯飞星火截图）

（图源：豆包截图）

（图源：Kimi 截图）

（图源：文心一言截图）

（图源：GPT-4o mini 截图）

念念来想去，小雷以为唯独的解释即是，百度作为国内首屈一指的搜索引擎，关于中国东谈主的谈话与念念维民风愈加了解，因而才能准确露出"到达"这个词的含义。其他大模子皆将始发停泊在汽车站作为念第一次到达车站，未能正确露出"到达"的含义。

相较于数学，本题关于汉文露出能力的锻真金不怕火可能更高，但这几款大谈话模子的阐扬也从侧面阐明，AI 大模子关于东谈主类逻辑的露出能力有待普及。谈判到文心 3.5 的收效讲明实力的同期，也有取巧的可能，因此小通还准备了地狱级难度的第三轮测试。

三、通顺员问题：免费版团灭，付费版正确

第三谈题相似是一起行测数学题，但与以上问题不同的是，这谈题莫得任何关扰信息，纯正锻真金不怕火大谈话模子的商酌能力。题目为：

某班有 39 名同学参加短跑、跳远、投掷三项体育比赛，东谈主数离别为 23 东谈主、18 东谈主、21 东谈主，其中三项比赛全部参加的有 5 东谈主，仅参加跳远的有 3 东谈主，仅参加投掷的有 9 东谈主，请示仅参加短跑的有若干东谈主？（正确谜底：9 东谈主）

缺憾的是，五款大模子与一款小模子在本轮测试中全部失败，而况大谈话模子给出的谜底各不沟通，解题念念路也存在许多问题。

（图源：GPT 截图）

（图源：讯飞星火截图）

（图源：豆包截图）

（图源：Kimi 截图）

（图源：文心一言截图）

（图源：GPT-4o mini 截图）

临了，小雷只好使用付费版的 OpenAI o1-preview 大模子进行商酌，成果不负众望，给出了正确谜底。

（图源：GPT-4o o1-preview 截图）

相似是 OpenAI 旗下的大模子，免费版 GPT-4o 和付费版 o1-preview 得出了不同谜底，原因可能在于免用度户所能调用的资源更少，导致大模子商酌能力不如付费版。

参数决定性能，

付费升级体验

以上参与三轮测试的五款大模子和一款小模子中，阐扬最差的无疑是小模子 GPT-4o mini，三轮测试中均给出了不实谜底。

咱们不错得出以下论断：

1、小模子只配作念大模子的平替？

GPT-4o mini 的阐扬讲明，当需要处理难度较高的推理问题时，小模子参数目少、资源少更容易出错。尽管百度、OpenAI、谷歌、微软等企业皆奋力于盘问小模子，但它们可能仅仅广漠使用时恢复基础问题"强迫能用"的平替版，毕竟成本不错大幅降低，这就跟企业雇佣一个小学生和一个博士生一样，才能是一分钱一分货。

据盘问机构 Epoch AI 商酌，考试顶端大模子所需的算力，每隔 6-10 个月就会翻一倍。弘大的算力需求，给 AI 公司带来了极高的经济压力，哪怕是谷歌、微软这种行业巨头，也会倍感贫苦。正因如斯，小模子现阶段虽阐扬失态于大模子，但 AI 公司不会灭亡设立小模子，而是领路过永劫期的调校与打磨，陆续普及小模子的能力。

（图源：豆包 AI 生成）

2、要得到相对更智能的 AI 处事？给钱吧。

几款大模子的免费版阐扬进出不大，大概处罚一些存在骚扰条目的数知识题，但遭受了笔墨可能存在歧义，或过于复杂的数知识题，阐扬则相对较差。好在，面临雷科技设定的地狱级难题，付费版的 o1-preview 大模子最终给出了正确谜底，为大谈话模子调停了好看，唯独付用度户才能体验到最佳的大模子。

3、原土大模子有原土上风，百度们稳了。

聚拢文心 3.5 大概在第二项测试中力压群雄可知，大谈话模子依赖多量数据运算，但每个国度或地区的数据量和获得难易进度不同，因谈话和生涯民风的各异，概括阐扬更出色的大模子，巧合能在特定场景中收效，大谈话模子也需要腹地化适配。

亚洲图欧美日韩在线

4、大模子距离东谈主类智能还很远，不要轻信"忽悠"。

在成本入手下，许多媒体、自媒体、创业公司甚而企业家大佬皆在荧惑" AI 胁迫论"，甚而豪言 AI 水平已卓越东谈主类，他们时时会用一些个案来讲明 AI 大模子已具备博士生甚而卓越博士生水平。但是，当咱们找一些常见的数学题，抑或是一些常见的责任任务来"考考"大模子时，大模子也很容易被难住。

大模子以及 AI 天然会有许多安全胁迫，比如自动驾驶汽车失控给城市交通乃至东谈主类人命安全带来的胁迫。但要说 AI 才能不错靠近东谈主类甚而取代东谈主类，那就熟练忽悠了。

大模子可能确乎被高估了，

但苹果掉队是事实

概括来看，苹果盘问员的不雅点对错各半，现时 AI 的逻辑推理能力不及，面临复杂的数知识题时，显得有些力不从心，但 AI 并非全皆莫得逻辑推理能力。哪怕是相对而言版块较为逾期的文心 3.5，在第二轮测试中也展现出了对笔墨和数学的解读与推理能力。

第一代 GPT 发布于 2018 年，仅有 1.17 亿参数，到了 2020 年，GPT-3 已领有 1750 亿参数，到如今 GPT 的历史不外短短 6 年，每一代的体验普及肉眼可见。

现时大谈话模子最大的问题照旧在于参数目太少、算力太低，资源相对丰富的 o1-preview，面临其他大模子安坐待毙的数学难题时，照旧给出了正确谜底。跟着大模子陆续优化、参数目加多、算力普及，大谈话模子的推理能力天然会水长船高。

进犯新动力汽车时，苹果血亏百亿好意思元最终灭亡，如今进入生成式 AI 畛域，苹果盘问员又站出来禁止大谈话模子，不禁令东谈主怀疑苹果的生成式 AI 方法进展不堪利。关于苹果而言，与其禁止其他 AI 大模子，不如加多 AI 研发插足，加快布局生成式 AI，毕竟 AI 的烧钱能力更甚于新动力汽车。

若失去了研发和布局生成式 AI 最佳的契机，比及 OpenAI、谷歌、微软、xAI 等企业的 AI 大模子等分了国际阛阓，百度、讯飞、阿里巴巴、抖音等企业的 AI 大模子占领了国内阛阓，苹果生成式 AI 业务有可能沦为与新动力汽车业务沟通的结局。

End三月系列

下一篇：男同表情包银华中枢能源精选搀和A,银华中枢能源精选搀和C: 银华中枢能源精选搀和型证券投资基金基金家具云尔提要更新

上一篇：白丝足交媒体爆料：特斯拉Optimus在发布会上被辛苦操控，其实莫得那么智能

三月系列 苹果盘问员质疑大模子！咱们测试了6款，发现了4大真相

三月系列苹果盘问员质疑大模子！咱们测试了6款，发现了4大真相