混币原理测试 AI，就用超等马力欧

发布日期：2025-03-16 12:35 点击次数：171

混币原理测试 AI，就用超等马力欧

“任天国即是全国的哄骗”混币原理，这句话在 AI 时期照旧没错。

就在上个月，好意思国东说念主工智能企业 Anthropic 在 Twitch 上用最新的 AI 模子 Claude 3.7 Sonnet 玩《宝可梦·红》，展现了现在 AI 本领的才智和东说念主们对它的响应。

估量员测试了特地多的游戏，终末暗示《宝可梦》是测试 Claude 3.7 Sonnet 的一个特地灵验的基准，因为在游戏中照实不错看到 Claude 3.7 的“念念考”——它获得了三个说念馆的徽章。

而今天估量东说念主员发现，《超等马力欧昆仲》可能比《宝可梦》系列更合适测试 AI 器用。

加州大学圣地亚哥分校的估量机构 Hao AI Lab 在上周五野心了一个与 GamingAgent 框架集成的《超等马力欧昆仲》用来测试 AI 器用，GamingAgent 内为东说念主工智能提供了一些基本请示，比如“若是隔邻有敌东说念主或不容物请向左或普及回避”，同期也提供了一些游戏截图看成参考，再由东说念主工智能以 Python 代码的模式生成输入来死字马力欧。

最终的遵守是，Claude 3.7 发扬最好，其次是 Claude 3.5、Gemini 1.5 Pro、GPT-4o。

比拟《宝可梦》不错停眷顾念考、回合制对战，《超等马力欧昆仲》这种“期间即是一切”的游戏对推理模子来说愈加贫穷，1 秒钟可能就意味着安全跳过或者陨落摔死。

用游戏来测试 AI 其实也由来已久，早在 2019 年，OpenAI 就举办了一场来展示 OpenAI Five 实力的比赛，它打败了一支由专科玩家构成的 Dota 2 队列，公成立布后，更是在线打败了 99.4% 的选手。

不外在一段期间后，OpenAI 不再使用游戏当基准，转去估量当然讲话以尽头他方针，或者为游戏创建 AI 让东说念主茂盛不已、也更容易交易化，但前 Salesforce 首席 AI 科学家 Richard Socher 觉得：除了玩游戏，它们莫得确凿为全国创造价值。

游戏看成一个空洞、浅易的全国，比拟确凿环境照实有弱势，若是不可很好的得当新环境，就很难在时期变化中不休问题。哪怕是胜率高达 9 成的 OpenAI Five，也不外是会玩 Dota 2 里的 16 个变装完了。

在 GPT-4.5 发布后，OpenAI 的估量科学员也提到了 AI 评测的“评估危险”。暗示“我不知说念看什么 AI 方针了”。

这照实亦然如今 AI 范畴估量者需要暖热的话题，寰球皆说 GPT-4.5 很独到，很多情面味，但它的“taste”该如何评价呢？

但至少混币原理，咱们今天不错看 AI 玩《超等马力欧》。

上一篇：没有了
下一篇：混币交易浙江宁波前湾：东谈主形机器东谈主运用“群体智能”时间实训

混币原理 测试 AI，就用超等马力欧

混币原理测试 AI，就用超等马力欧