新浪科技訊 4月10日下午消息,字節跳動豆包大模型團隊開源首個多語言類 SWE 數據集“Multi-SWE-bench”,可用于評估和提升大模型“自動修 Bug”能力。在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向棧工程”的評測基準。
豆包大模型團隊希望,Multi-SWE-bench 能作為大模型在多種主流編程語言與真實代碼環境中的系統性評測基準,推動自動編程能力向更實用、更工程化的方向發展。相比于以往聚焦 Python 的單語言任務,Multi-SWE-bench 更貼近現實中的多語言開發場景,也更能反映當前模型在“自動化軟件工程”方向上的實際能力邊界。(張奧)
全部評論 (0)