同一套多智能体协议跑了 54 次:协作“行为指纹”与一个协调盲区

工程复盘说明:本文基于有限样本的复现与观察,重点是总结可被提前捕捉的失败模式, 不构成模型榜单或通用能力排名。

不同的大模型不只是“做得不一样”。在同一套多智能体协议约束下,它们的协作方式 也会不一样。

我们在完全相同的协议约束下跑了 54 次多智能体会话,覆盖 4 种提供方配置。结果呈现出 可复现的“行为指纹”:在这类场景里,协议合规(在正确的时间发出正确的协议信号) 往往是区别于“原始能力”的关键变量。