从80%到38%:我在代码库长期演进测试中发现的AI编程真相三年前,我第一次用AI写函数,感觉找到了编程的终极武器。今年,当我试图让同一个AI系统维护一个持续演进三个月的代码库时,它把整个项目搞崩了。为什么独立测评高分,真实场景却集体翻车EvoClaw基准测试...admin666ssIT技术2026-05-230