Rubber Duck SWE-Bench Pro 評価

SWE-Bench Pro 評価：Rubber Duck の貢献度

Claude Sonnet 4.6 単体を100とした相対値。絶対スコアは未公開。

全問題（平均）

Sonnet 4.6

100

100

+ Rubber Duck

~74.7%

—

Opus 4.6

gap top

—

難問（3+ファイル、70+ステップ）

Sonnet 4.6

100

100

+ Rubber Duck

+3.8%

+3.8

最難問題（3回試行で特定）

Sonnet 4.6

100

100

+ Rubber Duck

+4.8%

+4.8

0Sonnet = 100Opus

74.7%

Gap closed

Sonnet → Opus の性能差

+3.8%

Hard problems

3+ files / 70+ steps

+4.8%

Hardest problems

3-trial worst cases

数値はすべて Sonnet 4.6 単体ランを 100 とした相対値。出典：GitHub Blog「GitHub Copilot CLI combines model families for a second opinion」（2026年4月6日）