呜啦!日常碎碎念,偶尔掉落优质前端博文推荐、学习资源等
网页:https://tg.cosine.ren
本频道的搜索Bot 来辣 👉 @cosSearchBot
私聊直接发消息就可以搜索啦~
🔖tags
#优质博文 #资源推荐 #博客更新 #碎碎念 #项目更新 #手工 #书摘 #阮一峰的科技周刊 #新动态
图频:Cosine 🎨 Gallery @CosineGallery
猫片: @cosine_cat
联系频道主:@cosine_yu
网页:https://tg.cosine.ren
本频道的搜索Bot 来辣 👉 @cosSearchBot
私聊直接发消息就可以搜索啦~
🔖tags
#优质博文 #资源推荐 #博客更新 #碎碎念 #项目更新 #手工 #书摘 #阮一峰的科技周刊 #新动态
图频:Cosine 🎨 Gallery @CosineGallery
猫片: @cosine_cat
联系频道主:@cosine_yu
#LLM #Benchmark #AI #tools
这个 MarginLab 挺有意思的,一个针对 Claude Code 和 Codex的独立性能监控工具,模拟真实用户编码场景来监测大模型的“降智”,
X 上的 Viking:“这个网站很棒:https://marginlab.ai/trackers/claude-code/ ...”
这个 MarginLab 挺有意思的,一个针对 Claude Code 和 Codex的独立性能监控工具,模拟真实用户编码场景来监测大模型的“降智”,
X 上的 Viking:“这个网站很棒:https://marginlab.ai/trackers/claude-code/ ...”
这个网站很棒:https://marginlab.ai/trackers/claude-code/ 针对大模型的独立性能监控追踪器,现在有 Opus 4.5 和 Codex gpt-5.2 的监控,查看这些模型在真实编码任务上的表现是否出现退化,也就是我们常说的大模型有没有降智。 每天自动跑基准测试,尽量模拟普通用户实际使用的体验。 结果发现Opus 4.5 在过去的 30 天有明显的降智,下降 4.0%(统计显著,达到显著性阈值 ±3.2%),这也跟我的体验有点相符,而 Codex 的没有明显将智的迹象,Codex 最近也是我更喜欢的模型,精准,没有那么多废话,不会随便自由发挥。