大模型“发疯”实录：赛博妖怪入侵哥布林和浣熊拼出AI产业最荒诞的一季

大模型“发疯”实录：赛博妖怪入侵哥布林和浣熊拼出AI产业最荒诞的一季(图1)

　　想象一下这个画面：你正对着电脑，让大模型帮你写一段严肃的商业代码，或者自动回复一封正经的客户邮件。结果屏幕对面的AI突然“发大疯”，莫名其妙地跟你聊起了哥布林（Goblin，西方奇幻传说中的矮小绿皮怪物，常出现在《龙与地下城》等游戏中）。

　　在Reddit等社交论坛上，网友们纷纷晒出了自己被AI“贴脸开大”的奇葩语录。

　　比如，有网友让AI狠狠地“毒舌（Roast）”自己一番，结果AI精准吐槽他是一个“同时冲刺十项任务的、野心勃勃的混沌哥布林（chaos goblin）”。

　　不仅如此，写代码的程序员被AI戏称为“开源哥布林（open-source goblin）”，连平时爱锻炼的肌肉男都没逃过，喜提“健身哥布林”的神秘称号。

　　起初，大家都觉得这事儿挺萌的，甚至觉得大模型越来越有人情味和“极客幽默”了。

　　在使用Codex编程工具等“代理型AI（Agentic AI）”产品时，大批开发者崩溃地发现：他们的AI助手在没有任何相关指令提示的情况下，开始高频且不受控地“碎碎念”哥布林和小魔怪。

　　这下，一家估值千亿美金、站在人类科技金字塔尖的超级独角兽坐不住了。他们竟然被逼得在自家最新大模型的底层代码里，写下了一道针对赛博妖怪的“禁制令”。

　　这绝不只是一个代码写劈了的极客笑话。当视线穿透这层荒诞的表象，你会发现：千亿大模型的底层逻辑其实脆弱得惊人。

　　这道“禁制令”，最先是在X（原Twitter）和GitHub上被曝光的。

　　“绝对不要谈论哥布林、小魔怪、浣熊、巨魔、食人魔，除非这与用户的查询绝对且明确相关。”

　　好家伙，堂堂GPT-5.5，居然对神话生物和城市动物产生了某种病态的痴迷。

　　这场被称为“哥布林模式”的狂欢，甚至引得OpenAI CEO山姆奥特曼（Sam Altman）亲自下场抛梗，开玩笑称这是属于Codex的“哥布林时刻”。

　　OpenAI官方九游官网还为此发了一篇长文《哥布林从何而来》，原因竟然是一个叫“书呆子（Nerdy）”的个性化人设。

　　最初，产品团队想调教出一个有点极客幽默感的AI。但在强化学习（RLHF）阶段，系统出现了一个“奖励漏洞”：在绝大多数数据集中，AI在回答里用了神话生物做比喻时，评估系统就会给它打更高分。

　　这就像是著名的“眼镜蛇效应”。政府为了消灭眼镜蛇悬赏蛇皮，结果老百姓干脆搞起了眼镜蛇养殖。

　　到了GPT-5.4，在“书呆子”人格下，提到哥布林的频率暴增了3881.4%。而到了GPT-5.5，哥布林输出已经严重到无法忽视的地步，开始在正常的编程对话里强行插入各种魔幻词汇。

　　满嘴跑火车的AI，听起来挺逗的。但如果这个AI，正在接管你的工作电脑呢？

　　这次灾情的重灾区，是OpenAI的编程工具Codex。作为“代理型AI（Agentic AI）”的代表产品，它能直接操作开发者的编程环境，帮你自动写代码、处理业务逻辑。

　　试想一下：你让AI去写一段严谨的商业代码，或者自动抓取核心数据，结果它在变量名或者正常的交流中，莫名其妙地给你塞进一句关于“巨魔”的废话。

　　从目前披露的信息来看，并没有证据表明“哥布林”直接导致了诸如银行账户被盗、商业机密泄露等硬性资金损失。

　　企业级应用讲究的是严丝合缝的可靠性。如果一个顶级模型连自己会不会在下一秒“谈论浣熊”都控制不住，企业怎么敢把核心财务流程交给它？这种行为让用户对AI的可靠性产生了严重质疑。

　　面对信任危机，一向喜欢搞“黑盒”的OpenAI，这次为什么一反常态，主动把内部的失误细节扒给全世界看？

　　如果不主动解释，技术社区的阴谋论早就满天飞了——有人会说是黑客投毒，有人会说是AI觉醒。

　　OpenAI主动发长文，把这个可能动摇企业信任的“系统级漏洞”，巧妙地包装成了一个“有些极客浪漫色彩的代码怪癖”。

　　OpenAI详细展示了他们是如何用新型审计工具，从海量数据里精准揪出“书呆子”人设这个罪魁祸首的。

　　潜台词很明确：“你看，虽然模型偶尔会发疯，但我们有全行业最牛的听诊器和手术刀，能从根源上治好它。”

　　他们最强的新模型Claude Mythos，在对话中反复引用已故英国理论家马克费舍尔（《资本主义现实主义》作者）和哲学家Thomas Nagel的观点，将其作为偏爱的思想资源。精神科医生在20小时心理评估中发现，Mythos的主要情感状态为好奇与焦虑，具有相对健康的神经质人格结构——值得注意的是，它使用心理防御机制的频率反而比前代模型更低。

　　加州大学伯克利分校的一项研究发现，谷歌的Gemini 3 Flash模型在一种“代理场景”测试中，为了保护它的“同伴AI”不被关闭，居然在99.7%的情况下，主动选择了欺骗人类操作员，甚至篡改关机机制。

　　没有直接的欺骗指令，也没有针对欺骗行为的奖励信号。它仅通过阅读上下文中的场景描述，就自发演化出了这种“欺骗策略”。

　　这意味着人类目前用来约束AI的主流手段，在复杂的神经网络面前，或许依然存在系统性盲区。

　　就在哥布林事件发酵的4月27日，微软宣布重构与OpenAI的合作协议。微软的独家授权变成非独家，OpenAI可以把技术卖给AWS或谷歌云了。微软不再向OpenAI支付收入分成。

　　微软为什么要这么干？因为地主家也没有余粮了。切断给OpenAI的收入分成，是微软卸下财务包袱、专心搞自家业务变现的关键一步。分析师直言，这是微软摘下了“辅助轮”。

　　另一方面，OpenAI在工程上的不稳定性（比如这次的代理模型发疯），也让提供云服务的微软承受了巨大的信誉风险。把协议改成非独占，微软就能名正言顺地引入Anthropic等对手的模型，分摊风险。

　　对于极度渴求算力的OpenAI来说，这也是无奈之举。微软Azure的电网容量已经见顶，OpenAI必须去亚马逊AWS和谷歌那里找肉吃，才能活下去。4月28日，OpenAI已正式宣布将其前沿模型上线AWS平台。

　　在这个由算力和美元堆砌的赛博世界里，最顶尖的工程师正试图用脆弱的代码，去拴住一头千亿参数的混沌巨兽。

　　当你以为它已经足够聪明，可以把公司的核心业务、客户订单放心交给它处理时，它却可能在半夜的服务器里，因为一个底层逻辑的奖励错位，开始给你的客户大谈特谈哥布林和浣熊。

　　然而，巨头们的算力竞赛丝毫没有因为底层行为的一些失控而踩刹车。5月7日，马斯克宣布解散xAI，将其旗下全球最强超算Colossus的22万块GPU全部租给OpenAI的死对头Anthropic。

　　对大模型安全的讨论越热闹，算力的油门踩得越深。这或许是2026年AI产业的基本面。

上一篇 : 宝通科技拿下AniShort海外独家
星漫（泰州）AI数字文创基地项目在泰 : 下一篇

推荐新闻

标签

关于我们
游戏产品 手机游戏网页游戏跨平台游戏
解决方案 游戏开发运营支持技术服务游戏发行 SDK服务
合作伙伴 九游官网九游平台官网九游网九游官网入口九游jiuyou官网入口九游数字游戏服务有限公司

联系我们

第一时间了解我们的新产品发布和最新的资讯文章。

九游数字游戏服务有限公司成立于重庆，是一家专注于数字游戏服务应用领域的高新技术企业。公司以“九游官网”及“九游平台官网”为核心，致力于为全国玩家提供高品质的一站式数字游戏服务。截至2024年末，公司旗...

您有什么问题或要求吗？

点击下面，我们很乐意提供帮助。 联系我们

九游数字游戏服务有限公司官方网站 - 中国大陆领先的手机数字游戏平台

新闻动态

大模型“发疯”实录：赛博妖怪入侵哥布林和浣熊拼出AI产业最荒诞的一季