我用 Agent 架构自动生成了一个逆转裁判风格的互动推理剧本

从内部 run 到 itch.io 公开页面，一个可交互原型的自动化生产

三月 21, 2026

Vibegauge-Narratives

多Agent, Agent工程, 互动叙事, 游戏原型, 工程复盘

你现在就可以打开 itch.io 上的原型页面，进入一个叫「雷音寺的失火案」的互动推理场景。

故事的设定很直接：孙悟空被控纵火焚毁雷音寺藏经阁，护寺僧人自称亲眼目睹，而你作为玩家，需要在废墟里搜集物证、在神话法庭上逐条追问证词、在关键矛盾点出示证据，最终揭开僧人自导自演嫁祸悟空的真相。

这不是一份概念设计稿，也不是内部 demo 截图。它已经被打包成 HTML5，部署到了 itch.io，任何人都可以用浏览器直接打开体验。案件包含 6 个角色、6 件可收集证物、4 组层层递进 …

AI 为什么会反复“拧门锁”

Door-Lock Rechecking：一次无害重复，一次越界污染

二月 23, 2026

多智能体, Agent, 工程复盘, 可靠性, 协议, 可观测性

锚点：Door-Lock Rechecking — LLM 在多次独立实验中对同一关键产物自发重复提交，prompt 中没有此指令。

在一个多 Agent 协作系统里，我们观察到一个没人教过的行为：

Agent 在完成一份关键产物后，会再次调用提交工具提交同一份文件——内容没有变，哈希完全相同。这个动作没有任何指令要求它这么做。

你出门后，会不会停下来，转身，再拧一下门锁确认上了？

这不是记忆力的问题。

同一套多智能体协议跑了 54 次：协作“行为指纹”与一个协调盲区

协议合规、失败模式，以及为什么可观测性“分辨率”决定排障速度

二月 18, 2026

多智能体, Agent, 可观测性, 协议, 工程复盘, 治理

工程复盘说明：本文基于有限样本的复现与观察，重点是总结可被提前捕捉的失败模式，不构成模型榜单或通用能力排名。

不同的大模型不只是“做得不一样”。在同一套多智能体协议约束下，它们的协作方式 也会不一样。

我们在完全相同的协议约束下跑了 54 次多智能体会话，覆盖 4 种提供方配置。结果呈现出可复现的“行为指纹”：在这类场景里，协议合规（在正确的时间发出正确的协议信号）往往是区别于“原始能力”的关键变量。

我们花了两三周调试一个不该存在的功能

公理污染：当实现反向定义正确

一月 31, 2026

Axiom-Contamination

游戏开发, 工程管理, 敏捷, 原型, 需求, 技术债务

我们花了两三周调试一个不该存在的功能#

一个真实的翻车现场#

上个月，我们团队在做一个复刻经典游戏的项目。

有一天，测试报了一个 bug：「二段跳有时候会误触发」。

于是开始调。

改参数、加判断、打日志、对比帧数据……前前后后折腾了两三周。期间开了不少会，讨论「误触发的边界条件到底是什么」「要不要加冷却时间」「阈值设成多少合适」。

直到有一天，有人突然问了一句：

「等一下，原版有二段跳吗？」

去查了原版资料。

原版没有二段跳。

我们按完整的工程流程，调试了一个根本不该存在 …

验证都通过了，游戏一集成就崩：多 Agent 协作里一个看不见的盲区

两次复现、一个盲区，以及一个数据契约字段

一月 30, 2026

Vibegauge-Narratives

多Agent, Agent工程, 验证, 数据契约, 游戏开发, 可观测性

验证全通过，我们一集成就崩了。

日志里没有任何异常。

（工程复盘：基于有限样本的复现与观察，结论未必可泛化。）

我们的多 Agent 协作系统有一套完整的验证协议：Agent 生产代码，下游 Agent 验证，验证通过后冻结产物。整条链路运行良好——事件日志里全是 pass，流程三轮稳定收敛。

然后我们把六个 Agent 的产物拼在一起运行，游戏直接崩溃了。

日志里没有任何异常。

问题#

我们研究的系统是一个多 Agent 协作平台。六个 Agent 各自负责一个模块（物理 …

为什么是gameai.one

深度思考 · 第一篇

十二月 18, 2025

创作方法论, AI, 独立创作

四个"一"的来历#

一个人

自由职业。热爱旅行。无人机拍摄。

选择这种生活不是逃避，是认清了自己不适合被安排。

一锅温柔

第一个作品的名字。也是对创作的隐喻。

温柔不是软弱，是慢火炖煮的耐心。就像做一锅米饭，急不得。

一个游戏

未来会做的东西。也许是游戏，也许不是。

但"游戏"这个词很好：

Play（玩耍）- 探索的自由
Rules（规则）- 创作的边界
Experience（体验）- 传达的目标

一个梦

长期主义的愿景。 …