苹果新 Siri 超等碗常识测试大翻车，精确率仅_众博体育彩票

咨询热线
400-123-4567

苹果新 Siri 超等碗常识测试大翻车，精确率仅

栏目：公司新闻发布时间：2025-01-25 08:37

IT之家 1 月 24 日新闻，一项针对苹果虚构助手 Siri（新版）的测试表现，其在答复超等碗汗青相干成绩时表示十分蹩脚。测试成果标明，新版 Siri 在 58 届超等碗的冠军归属成绩中，仅准确答复了 20 次，正确率仅为 34%。IT之家留神到，此次测试由 One Foot Tsunami 的 Paul Kafasis 计划并履行。他逐个讯问新版 Siri 从第一届到第六十届超等碗的冠军得主，并记载其答复。成果表现，新版 Siri 的表示令人扫兴，尤其是在某些成绩上呈现了显明的过错。比方，新版 Siri 屡次过错地将 33 次超等碗冠军归于费城老鹰队，而现实上该队汗青上仅博得过一次冠军。别的，新版 Siri 的答复中还呈现了与成绩有关的足球信息，乃至在某些情形下供给了过错的超等碗届数信息。只管新版 Siri 确切给出了一些持续正确的谜底，比方准确答复了第五至第七届超等碗的冠军，但其在第十七届至第三十二届超等碗的成绩上持续 15 次答复过错，凸显了其常识库的范围性。并且，当被问中举十六届超等碗时，新版 Siri 乃至倡议用户向 ChatGPT 追求谜底，然后者则供给了准确谜底。这一对照进一步裸露了新版 Siri 与更进步的 AI 体系之间的差距。测试在运转 iOS 18.2.1 并启用 Apple Intelligence 的装备长进行，同时期近将宣布的 iOS 18.3 测试版跟 macOS 14.7.2 中也发明了相似成绩，标明这一成绩在苹果多个平台上广泛存在。Kafasis 已将测试成果收拾成 Excel 跟 PDF 格局的表格，供大众查阅。受 Kafasis 测试的启示，Daring Fireball 的 John Gruber 也对新版 Siri 停止了相似的体育成绩测试，并将其与 ChatGPT、Kagi、DuckDuckGo 跟 Google 的表示停止了对照。成果表现，其余 AI 体系均能准确答复成绩，而新版 Siri 则每每答错。更蹩脚的是，Gruber 发明，旧版 Siri（即未启用 Apple Intelligence 的版本）在无奈答复成绩时，会供给一组网页链接，此中第一个链接平日能供给局部准确谜底。而新版 Siri（启用 Apple Intelligence 并集成 ChatGPT 功效后）的表示却更差，不只答复过错，并且每次实验都市给出差别的过错谜底。Gruber 对此批评道：“新版 Siri 的答复不只完整过错，并且看似公道，这是最蹩脚的过错方法。更令人难以相信的是，Siri 在一个如斯受欢送的主题上表示得如斯笨拙。”他还指出，新版 Siri 连一半的超等碗成绩都不克不及答对。现实上，Siri 的团体表示临时以来始终备受诟病，Gruber 对其“看似公道但现实过错”的答复的批驳，也反应了以后 AI 谈天呆板人在答复知识性成绩时广泛存在的“幻觉”成绩 —— 即自负地供给误导性或完整过错的谜底。据悉，苹果正在开辟一款基于进步年夜言语模子（LLM）的更智能版 Siri，估计将使其可能更好地与 ChatGPT 等谈天呆板人竞争。更智能版 Siri 可能支撑连续对话，并供给相似于 ChatGPT 或 Claude 的辅助跟看法。估计苹果最早会在 2025 年的寰球开辟者年夜会（WWDC）上宣布 LLM 版 Siri，但正式上线可能要比及多少个月后。这象征着 LLM 版 Siri 将作为 iOS 19 的更新内容推出，iOS 19 估计在 2026 年春季正式上线。

上一篇：路虎纯电卫士问世要比及 2神仙道3神仙道年：现

下一篇：没有了