呜啦!日常碎碎念,偶尔掉落优质前端博文推荐、学习资源等
网页:https://tg.cosine.ren
本频道的搜索Bot 来辣 👉 @cosSearchBot
私聊直接发消息就可以搜索啦~
🔖tags
#优质博文 #资源推荐 #博客更新 #碎碎念 #项目更新 #手工 #书摘 #阮一峰的科技周刊 #新动态

图频:Cosine 🎨 Gallery @CosineGallery
猫片: @cosine_cat
#优质博文 #AI #开源 #RCT
挺有意思的。
Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity

AI 摘要:本文通过一项随机对照试验(RCT)研究了 2025 年初 AI 工具对经验丰富的开源开发者生产力的影响。研究发现,使用 AI 工具的开发者完成任务的时间比不使用时长 19%,即 AI 反而降低了他们的效率。这一结果与开发者的预期(认为 AI 会加速 24%)和专家预测形成鲜明对比。文章探讨了这一现象背后的可能原因,并尝试调和 RCT 结果与 AI 基准测试成绩及轶事报告之间的矛盾,强调了在现实场景中评估 AI 影响的重要性。

1. 研究动机:
• 探讨 AI 工具在现实环境中的影响,弥补基准测试(benchmarks)在真实性上的不足。
• 基准测试常因任务简化或缺乏上下文而高估或低估 AI 能力,而现实中的 AI 对 AI 研发的影响可能带来风险(如快速进步导致监管失控)。
• 通过开发者生产力研究,提供补充证据以评估 AI 对研发加速的整体影响。

2. 研究方法:
• 招募 16 名经验丰富的开源开发者,来自平均星级 22k+、代码量 100 万行以上的大型仓库。
• 开发者提供 246 个真实问题(bug 修复、功能开发、重构等),随机分配是否允许使用 AI 工具。
• 使用 AI 时,开发者可自由选择工具(主要为 Cursor Pro 与 Claude 3.5/3.7 Sonnet);不使用 AI 时,禁止任何生成式 AI 辅助。
• 任务平均耗时 2 小时,开发者记录屏幕并自报完成时间,报酬为每小时 150 美元。

3. 核心结果:
• 使用 AI 工具时,开发者完成任务时间延长 19%,与预期加速 24% 及事后仍认为加速 20% 的认知形成反差。
• 数据显示,AI 工具在现实任务中显著减缓了开发速度。
• 文章澄清未提供证据支持的观点,如 AI 对大多数开发者无加速作用、未来无潜力加速等。

4. 因素分析:
• 研究分析 20 个可能导致减缓的因素,发现 5 个可能原因(具体因素详见论文)。
• 排除实验偏差,如开发者使用前沿模型、遵守分配规则、提交的 PR 质量无明显差异等。
• 减缓现象在不同结果测量、估计方法及数据子集分析中一致。

5. 讨论:
• 对比 RCT 结果、基准测试(如 SWE-Bench)及轶事报告,发现证据部分矛盾。
RCT 显示 AI 减缓 20 分钟至 4 小时的现实编码任务;基准测试显示 AI 在困难任务中表现优异;轶事报告称 AI 在多场景中帮助显著。
• 提出三种假设解释矛盾:RCT 低估能力、基准及轶事高估能力、或三者反映不同任务分布。
• 指出 AI 在高标准或隐性要求(如文档、测试覆盖率)场景中能力可能较低,基准测试因任务简化可能高估能力,轶事报告可能不准确。

6. 未来展望:
• 计划继续此类研究,追踪 AI 加速或减缓趋势,特别是在难以操控的现实评估中。
• 若 AI 显著加速开发者,可能预示 AI 研发快速进步,带来扩散风险、监管失控或权力集中等问题。
• 强调现实场景评估与基准测试结合的重要性,以全面理解 AI 能力及影响。


author Metr Team Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
 
 
Back to Top