#LLM #Benchmark #AI #tools这个 MarginLab 挺有意思的，一个针对 Claude Code 和 Codex的独立性能监控工具，模拟真实用户编码场景来监测大模型的“降智”，X 上的 Viking：“这个网站很棒：

#LLM #Benchmark #AI #tools
这个 MarginLab 挺有意思的，一个针对 Claude Code 和 Codex的独立性能监控工具，模拟真实用户编码场景来监测大模型的“降智”，

X 上的 Viking：“这个网站很棒：https://marginlab.ai/trackers/claude-code/ ...”

这个网站很棒：https://marginlab.ai/trackers/claude-code/ 针对大模型的独立性能监控追踪器，现在有 Opus 4.5 和 Codex gpt-5.2 的监控，查看这些模型在真实编码任务上的表现是否出现退化，也就是我们常说的大模型有没有降智。每天自动跑基准测试，尽量模拟普通用户实际使用的体验。结果发现Opus 4.5 在过去的 30 天有明显的降智，下降 4.0%（统计显著，达到显著性阈值 ±3.2%），这也跟我的体验有点相符，而 Codex 的没有明显将智的迹象，Codex 最近也是我更喜欢的模型，精准，没有那么多废话，不会随便自由发挥。

marginlab.ai

Claude Code Opus 4.5 Performance Tracker | Marginlab

Track Claude Code's daily performance on SWE-Bench-Pro. Monitor for degradation with statistical significance testing.