按Enter键搜索或按ESC键取消
IT之家 4 月 10 日动静,豆包大模子团队今日通过号颁布发表,首个多言语类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提拔大模子“从动修 Bug”能力。Multi-SWE-bench初次笼盖 Python 之外的 7 种支流编程言语,是实反面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年建立,以尽可能精确测评和提高峻模子高阶编程智能程度。Multi-SWE-bench 旨正在鞭策从动编程手艺从仅能处理单一言语(如 Python)和低复杂度的使命,朝着支撑多言语、具备实正在问题处理能力的通用型智能体迈进。SWE-bench 是当前最具代表性的代码修复评测基准,强调使命实正在、难度高。它基于 GitHub issue,要求模子从动定位并修复 Bug,兼具跨文件点窜、复杂语义推理取上下文理解等挑和。Multi-SWE-bench 旨正在补全现有同类基准言语笼盖方面的不脚,系统性评估大模子正在复杂开辟下的“多言语泛化能力”,其次要特征如下:初次笼盖 7 种支流编程言语(包罗Java、Go、Rust、C、C++、TypeScript、JavaScript),建立多言语开辟下的代码修复使命,系统评估模子的跨言语顺应取泛化能力;引入使命难度分级机制,将问题划分为简单(Easy)、中等(Medium)和坚苦(Hard)三类,涵盖从一行点窜到多文件、多步调、多语义依赖的开辟挑和;1,632 个实例全数来历于实正在开源仓库,并颠末同一的测试尺度和专业开辟者的审核筛选,确保每个样本具备清晰的问题描述、准确的修复补丁以及可复现的运转测试。