苹果新 Siri 超等碗常识测试大翻车,精确率仅
栏目:公司新闻 发布时间:2025-01-25 08:37
IT之家 1 月 24 日新闻,一项针对苹果虚构助手 Siri(新版)的测试表现,其在答复超等碗汗青相干成绩时表示十分蹩脚。测试成果标明,新版 Siri 在 58 届超等碗的冠军归属成绩中,仅准确答复了 20 次,正确率仅为 34%。IT之家留神到,此次测试由 One Foot Tsunami 的 Paul Kafasis 计划并履行。他逐个讯问新版 Siri 从第一届到第六十届超等碗的冠军得主,并记载其答复。成果表现,新版 Siri 的表示令人扫兴,尤其是在某些成绩上呈现了显明的过错。比方,新版 Siri 屡次过错地将 33 次超等碗冠军归于费城老鹰队,而现实上该队汗青上仅博得过一次冠军。别的,新版 Siri 的答复中还呈现了与成绩有关的足球信息,乃至在某些情形下供给了过错的超等碗届数信息。只管新版 Siri 确切给出了一些持续正确的谜底,比方准确答复了第五至第七届超等碗的冠军,但其在第十七届至第三十二届超等碗的成绩上持续 15 次答复过错,凸显了其常识库的范围性。并且,当被问中举十六届超等碗时,新版 Siri 乃至倡议用户向 ChatGPT 追求谜底,然后者则供给了准确谜底。这一对照进一步裸露了新版 Siri 与更进步的 AI 体系之间的差距。测试在运转 iOS 18.2.1 并启用 Apple Intelligence 的装备长进行,同时期近将宣布的 iOS 18.3 测试版跟 macOS 14.7.2 中也发明了相似成绩,标明这一成绩在苹果多个平台上广泛存在。Kafasis 已将测试成果收拾成 Excel 跟 PDF 格局的表格,供大众查阅。受 Kafasis 测试的启示,Daring Fireball 的 John Gruber 也对新版 Siri 停止了相似的体育成绩测试,并将其与 ChatGPT、Kagi、DuckDuckGo 跟 Google 的表示停止了对照。成果表现,其余 AI 体系均能准确答复成绩,而新版 Siri 则每每答错。更蹩脚的是,Gruber 发明,旧版 Siri(即未启用 Apple Intelligence 的版本)在无奈答复成绩时,会供给一组网页链接,此中第一个链接平日能供给局部准确谜底。而新版 Siri(启用 Apple Intelligence 并集成 ChatGPT 功效后)的表示却更差,不只答复过错,并且每次实验都市给出差别的过错谜底。Gruber 对此批评道:“新版 Siri 的答复不只完整过错,并且看似公道,这是最蹩脚的过错方法。更令人难以相信的是,Siri 在一个如斯受欢送的主题上表示得如斯笨拙。”他还指出,新版 Siri 连一半的超等碗成绩都不克不及答对。现实上,Siri 的团体表示临时以来始终备受诟病,Gruber 对其“看似公道但现实过错”的答复的批驳,也反应了以后 AI 谈天呆板人在答复知识性成绩时广泛存在的“幻觉”成绩 —— 即自负地供给误导性或完整过错的谜底。据悉,苹果正在开辟一款基于进步年夜言语模子(LLM)的更智能版 Siri,估计将使其可能更好地与 ChatGPT 等谈天呆板人竞争。更智能版 Siri 可能支撑连续对话,并供给相似于 ChatGPT 或 Claude 的辅助跟看法。估计苹果最早会在 2025 年的寰球开辟者年夜会(WWDC)上宣布 LLM 版 Siri,但正式上线可能要比及多少个月后。这象征着 LLM 版 Siri 将作为 iOS 19 的更新内容推出,iOS 19 估计在 2026 年春季正式上线。