不知道你还是否记得首个「AI程序员」Devin,由10枚IOI金牌在手的创业团队CognitionAI开发,今年月上线。
它由GPT-4提供后端支持,能以文本形式接收自然语言指令,并自主编写代码。
刚刚上线时,虽然效果没法达到取代程序员,但依旧给人留下了深刻印象。
如今,5个月过去,「狂飙」的GenAI领域已然大不相同。不仅GPT-4迎来了下一代模型GPT-4o,新发布的Claude.5Sonnet、Codestral等模型都在编码方面性能优秀。
Devin的直接挑战者,是初创公司Cosine开发的自主AI工程师Genie。
Cosine发布的报告显示,在SWE-Bench中,Genie的得分为0.08%,轻松超越了分数为1.8%的Devin。
Cosine联合创始人兼CEOAlistairPullen表示:「(Genie)模型的能力不是一个基准测试分数能概括的:它从一开始就被训练成像人类软件工程师(SWE)一样思考和行动。」
我很高兴与大家分享,我们打造出了世界上最强的AI软件工程师,在SWE-Bench上取得了0.08%的成绩,领先于亚马逊和Cognition。
由于CEO声称Genie可以像人类软件工程师一样思考和行动,网友调侃道,「你的意思是它不能和女人说话,如果你打电话给它,它就会出汗?」
Genie是什么?它能做什么?
和Devin类似,Genie也可以在人类工程师的指导下自主完成各种编码任务,包括bug修复、功能构建、代码重构,以及通过全面测试进行代码验证。
除了自主运行,Genie也可以与用户协作。
目前Genie还处在内测阶段,可以在