024-78710888

详情

大模子“从动修bug”能力将提拔豆包开源多言语

2025-06-14 09:12
分享

　　IT之家 4 月 10 日动静，豆包大模子团队今日通过号颁布发表，首个多言语类 SWE 数据集 Multi-SWE-bench 现已正式开源，可用于评估和提拔大模子“从动修 Bug”能力。Multi-SWE-bench初次笼盖 Python 之外的 7 种支流编程言语，是实反面向“全栈工程”的评测基准。其数据均来自 GitHub issue，历时近一年建立，以尽可能精确测评和提高峻模子高阶编程智能程度。Multi-SWE-bench 旨正在鞭策从动编程手艺从仅能处理单一言语（如 Python）和低复杂度的使命，朝着支撑多言语、具备实正在问题处理能力的通用型智能体迈进。SWE-bench 是当前最具代表性的代码修复评测基准，强调使命实正在、难度高。它基于 GitHub issue，要求模子从动定位并修复 Bug，兼具跨文件点窜、复杂语义推理取上下文理解等挑和。Multi-SWE-bench 旨正在补全现有同类基准言语笼盖方面的不脚，系统性评估大模子正在复杂开辟下的“多言语泛化能力”，其次要特征如下：初次笼盖 7 种支流编程言语（包罗Java、Go、Rust、C、C++、TypeScript、JavaScript），建立多言语开辟下的代码修复使命，系统评估模子的跨言语顺应取泛化能力；引入使命难度分级机制，将问题划分为简单（Easy）、中等（Medium）和坚苦（Hard）三类，涵盖从一行点窜到多文件、多步调、多语义依赖的开辟挑和；1，632 个实例全数来历于实正在开源仓库，并颠末同一的测试尺度和专业开辟者的审核筛选，确保每个样本具备清晰的问题描述、准确的修复补丁以及可复现的运转测试。

上一篇：【潘森教育】Python 编程竞赛：代码世界的逐鹿征

下一篇：AI取物流交汇：深圳展会切磋将来手艺新趋向

详情

大模子“从动修bug”能力将提拔豆包开源多言语

快捷导航

最新信息

航天品质 | 构筑未来

关于我们

机械知识

机械自动化

联系我们

详情

大模子“从动修bug”能力将提拔豆包开源多言语

快捷导航

最新信息

航天品质 | 构筑未来

领先设备 精益求精

关于我们

机械知识

机械自动化

联系我们

领先设备精益求精