昨晚普林斯顿大学开源了一个类似AI 程序员Devin的项目 SWE-agent。
SWE-agent 将 LM(例如 GPT-4)转变为软件工程代理,可以修复真实 GitHub 存储库中的错误和问题。
在完整的SWE-bench测试集上 SWE-agent 12.3 分只差了Devin一分Claude3 opus只有 3 分多。
SWE-agent的一些特点:
✲ 当发出编辑指令时,加入了一个代码检查器(linter)来运行,如果代码语法不正确,就不会执行该编辑指令。
✲ 为智能体提供了一个专门构建的文件查看器,这不仅仅是执行cat命令那么简单。这个文件查看器在每次仅展示100行内容时效果最佳。构建的文件编辑器配备了上下滚动和文件内搜索的命令。
✲ 还为智能体提供了一个专为全目录字符串搜索而设的命令。这个工具在简洁地列出搜索匹配结果时尤为重要,因此我们只列出了每个包含至少一个匹配项的文件。为模型展示每个匹配更多的上下文信息,反而会使模型感到困惑。
✲ 当某个指令没有任何输出时,会返回一条提示信息:“您的指令已成功运行,但并未产生任何输出。