博客

内容

2024年3月12日 | 作者:Scott Wu

介绍Devin,第一位AI软件工程师

在SWE-bench编码基准测试中树立了新的技术标杆

遇见Devin,世界上第一个完全自主的AI软件工程师。Devin是一个不知疲倦、技能娴熟的队友,他可以与您并肩工作,也可以独立完成任务供您审阅。

与Devin一起,工程师可以专注于更有趣的问题,工程团队可以追求更雄心勃勃的目标。

Devin的能力

通过我们在长期推理和规划方面的进步,Devin可以计划并执行需要数千次决策的复杂工程任务。Devin可以在每一步召回相关背景,随着时间学习,并纠正错误。

我们还为Devin配备了常见的开发人员工具,包括shell、代码编辑器和浏览器,这些工具都在一个沙盒计算环境中——这是人类工作所需的一切。

最后,我们赋予了Devin与用户积极合作的能力。Devin实时报告进展情况,接受反馈,并根据需要与您共同进行设计选择。以下是Devin的部分功能示例:

Devin可以学会如何使用陌生的技术。在阅读博客文章后,Devin在Modal上运行ControlNet,为Sara生成带有隐藏信息的图像。

Devin可以从头到尾构建和部署应用程序。Devin制作了一个交互式网站,模拟生命游戏!它逐步添加用户请求的功能,然后将应用程序部署到Netlify。

Devin可以自主地在代码库中找到并修复错误。Devin帮助Andrew维护和调试他的开源竞赛编程书。

Devin可以训练和微调自己的AI模型。 Devin仅通过GitHub上的研究存储库链接设置了大型语言模型的微调。

Devin可以处理开源代码库中的错误和功能请求。只需提供GitHub问题的链接,Devin会完成所有必要的设置和上下文收集。

Devin可以为成熟的生产存储库做出贡献。这个例子是SWE-bench基准测试的一部分。Devin在sympy Python代数系统中解决了对数计算的错误。Devin建立了代码环境,重现了错误,并独自编写和测试了修复代码。

我们甚至尝试在Upwork上给Devin提供真正的工作,它也能胜任! 在这里,Devin编写和调试代码以运行计算机视觉模型。Devin对生成的数据进行取样,并在最后编写报告。

Devin的表现

我们在SWE-bench上评估了Devin,这是一个具有挑战性的基准测试,要求代理程序解决在Django和scikit-learn等开源项目中发现的真实GitHub问题。

Devin正确地解决了13.86% 的问题,远远超过了之前的最先进水平1.96%。即使给出要编辑的确切文件,最好的先前模型也只能解决4.80% 的问题。

*Devin 在数据集的随机25%子集上进行了评估。Devin 是无辅助的,而所有其他模型都是有辅助的(意味着模型被告知需要编辑哪些文件)。

我们计划很快发布更详细的技术报告,请继续关注更多细节。

关于认知

我们是一个专注于推理的应用人工智能实验室。我们正在打造拥有远远超越当今现有人工智能工具能力的人工智能团队。通过解决推理问题,我们可以在各种学科领域中开启新的可能性——编码只是一个开始。我们希望帮助世界各地的人们将他们的想法变成现实。

我们资金充裕,包括由创始人基金领投的 2,100 万美元 A 轮融资。我们感谢行业领袖的支持,包括 Patrick 和 John Collison、Elad Gil、Sarah Guo、Chris Re、Eric Glyman、Karim Atiyeh、Erik Bernhardsson、Tony Xu、Fred Ehrsam 等等。

聘请Devin

Devin目前处于早期访问阶段,我们正在增加容量。要开始使用Devin进行工程工作,请在此处联系或通过[email protected]联系。

加入我们

我们的团队规模小而人才密集。我们的创始团队拥有10枚IOI金牌,包括曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo和Nuro等公司从事应用AI前沿工作的领导者和建设者。Devin的建设只是第一步,我们最艰巨的挑战仍在前方。如果你对解决世界上一些最大的问题并构建能够推理的AI感到兴奋,请了解更多关于我们团队的信息并在此申请加入我们

总结
文章介绍了全球首个完全自主的AI软件工程师Devin,展示了其在SWE-bench编码基准测试中创造了新的技术水平。Devin具有长期推理和规划能力,能够执行复杂的工程任务,包括学习、修复错误等。Devin可以学习使用陌生技术、构建部署应用程序、自主查找修复代码中的错误、训练AI模型等。在SWE-bench基准测试中,Devin解决了实际GitHub问题,成功率达到13.86%,远超过之前的1.96%。文章还介绍了Cognition实验室的背景和团队,以及Devin的早期使用和招聘信息。