← ニュースAll
AIの長期的なコード保守力を測るSWE-CI
要約
中山大学とアリババの研究チームが、AIの長期的なコード保守能力を評価する新ベンチマーク「SWE-CI」を提案しました。実在リポジトリの約8か月・71回の連続更新を再現し、多くのモデルでリグレッションが多かったと報告されています。
本文
中国の中山大学とアリババグループの研究者らが、AIが長期的にコード品質を維持できるかを評価するベンチマーク「SWE-CI」を発表しました。近年、AIによる単発のバグ修正能力は向上していますが、実務では何カ月も何年も続く保守作業が全体コストの大部分を占めます。そのため、単回の修正性能だけでなく継続的な保守能力を評価する必要があると研究チームは位置付けています。SWE-CIは現実の開発サイクルを模した連続的な更新を通じて、将来を見据えたコード変更を重視する設計です。
報告の主な内容:
・SWE-CIは実在するリポジトリから、平均233日・71回の連続更新を想定したデータを用いる。
・研究では、ある時点のコードと約8か月後のコードのペアを100組用意し、AIに何度も改善を試行させる手法を採用している。
・設計役のAIが次の修正方針を決め、実装役のAIがそれに従ってコードを書く分業体制で現実の開発サイクルを模している。
・評価指標は後半の反復ほど重みを大きくし、短期的なテスト通過だけで高得点とならないようにしている。
・18モデルを試した結果、多くのモデルでリグレッションが発生し、一貫して壊さなかった割合は大半で25%未満、Claude Opusのみ50%を超えたと伝えられている。
まとめ:
この研究は、単発の修正能力と長期的な保守能力が異なる課題であることを示しています。特にリグレッションの頻発は継続的な変更への耐性が重要である点を浮き彫りにしています。実務への影響や導入の可否については現時点では未定です。
