SWE-Bench Pro 評価:Rubber Duck の貢献度

Claude Sonnet 4.6 単体を100とした相対値。絶対スコアは未公開。

全問題(平均)
Sonnet 4.6
100
100
+ Rubber Duck
~74.7%
Opus 4.6
gap top
難問(3+ファイル、70+ステップ)
Sonnet 4.6
100
100
+ Rubber Duck
+3.8%
+3.8
最難問題(3回試行で特定)
Sonnet 4.6
100
100
+ Rubber Duck
+4.8%
+4.8
0Sonnet = 100Opus
74.7%
Gap closed
Sonnet → Opus の性能差
+3.8%
Hard problems
3+ files / 70+ steps
+4.8%
Hardest problems
3-trial worst cases

数値はすべて Sonnet 4.6 単体ランを 100 とした相対値。出典:GitHub Blog「GitHub Copilot CLI combines model families for a second opinion」(2026年4月6日)