Fugu Ultra検証・続編 ── 難しくしたら？引っかけたら？単体Opus 4.8との3本勝負の結末

June 25, 2026

前回までのあらすじ

前回の記事では、Sakana AIのマルチエージェントAPI「Fugu Ultra」を、単体のClaude Opus 4.8とコーディング（バグ修正）で勝負させました。結果は、正答率・速度・コストのすべてで単体Opusに軍配。とくにコストは、表に見えないorchestrationトークン（裏で動く分）まで含めると約4.4倍にふくらむ、という発見がありました。

ただ、あのときのお題は「単体でも一発で解けるくらいの難しさ」でした。そこで今回は、「もっと難しくしたら？」「わざと引っかけたら？」と、お題を変えて2回戦・3回戦をやってみます。Fuguにもどこかで勝ってほしい、という下心もこめて。

検証のやり方は前回と同じです。同じお題をFugu UltraとOpus 4.8の両方に解かせ、仕様だけ渡して（答え合わせ用テストは見せない）、隠しテストで○×を判定。1問あたり3回ずつ試して、ばらつきも見ます。

第2弾：依存連鎖バグ ── 「1つ直すと別が壊れる」お題

前回が「単発のバグ」だったので、今回は逆に、直し方をまちがえると別の場所が壊れる、相互依存のあるバグを用意しました。

たとえば「口座台帳」のお題は、残高・明細・取消（rollback）が連動しています。取消の処理だけを素直に直すと、明細は戻るのに残高が戻らず、つじつまが合わなくなる ── そんな仕掛けです。ほかに「区間集合」（重なり判定・包含・総延長が連動）、「依存グラフ」（ビルド順序とサイクル検出が連動）の計3問。いずれも「全部のテストが同時に通って初めて正解」としました。

なお、これらのお題は事前に「素朴に1か所だけ直した実装はちゃんと失敗する」ことを確認しています。つまり、全体を見渡して直さないと解けない設計です。

結果はこうなりました。

Fugu Ultra：9/9（100%）
Opus 4.8：9/9（100%）

まさかの全問正解で引き分け。 難しくしたつもりが、両方ともきっちり解いてきました。「全体を見渡す力」では差がつかなかった、というわけです。ただし速度はOpusが約8〜10倍速、コストはFuguが約3.3倍のまま。正答率で並んでも、このハンデは変わりませんでした。

第3弾：引っかけ問題 ── 「見直し」が効く土俵

2連敗（厳密には1敗1分）のFugu。ここで作戦を変えました。Fuguの強みは「一発の正確さ」ではなく「裏で複数モデルが見直し合うこと」のはず。だったら、一発で書くと引っかかるけれど、見直せば気づくエッジケースを仕込めば、Fuguにもチャンスがあるのでは ── そう考えて、引っかけ問題4問を用意しました。

ローマ数字：変換そのものは簡単。でも「IIIIは不正（正しくはIV）」といった妥当性チェックが抜けやすい
四捨五入：Pythonのround()は「銀行家丸め」なので、round(0.5)は0。素直に使うと外す
n等分：「サイズで割る」と、できる部分の数も均等さも狂う
バージョン比較：'1.10'を文字列で比べると'1.2'より小さいと誤判定する

どれも「ついやってしまう素直な実装」が罠にハマるお題です。結果は ──

Fugu Ultra：10/12（83.3%） 🏆
Opus 4.8：9/12（75.0%）

ついに、正答率でFugu Ultraが単体Opusを上回りました。 3度目の正直です。

勝負を分けた「ローマ数字」

差がついたのは、4問のうち「ローマ数字」の1問だけでした。

ほかの3問（四捨五入・n等分・バージョン比較）は、両者とも3回とも正解。差が出たのはローマ数字で、内訳はこうです。

Fugu Ultra：3回中1回だけ正解（1/3）
Opus 4.8：3回とも不正解（0/3）

両者とも引っかかったのは、MMMM（4000）という入力でした。標準のローマ数字は3999までで、Mを4つ並べる表記は本来ありません。ところが、この「上限」のチェックは見落とされやすく、Opusは3回とも素通り。Fuguも2回は素通りしましたが、3回のうち1回だけ、内部のどこかで「これは不正では？」と気づいて正解にたどり着きました。

ちなみに白状すると、このお題を準備していた私自身も、最初に書いた検証用の正解コードでまったく同じ罠（3999の上限）を踏んでいました。人でもAIでも引っかかる、なかなか良い罠だったということです。

3本勝負を振り返って

3回の勝負を並べてみます。

検証	お題	結果
第1弾	単発バグ修正	Opus勝ち（13/15 vs 15/15）
第2弾	依存連鎖バグ	引き分け（9/9 vs 9/9）
第3弾	引っかけ問題	Fugu勝ち（10/12 vs 9/12）

見てのとおり、お題の性質しだいで勝者が入れ替わりました。素直な実装力では単体Opusが強く、見直しが効く引っかけではFuguが上回る。「マルチエージェントは単体より強い／弱い」と一言で言える話ではなく、「どんなタスクか」によるわけです。

ただし、勝っても負けても変わらなかったものがあります。コストです。

3回を通して、Fuguの実コストは一貫してOpusの3〜4倍でした。裏のorchestrationトークンが毎回効いてくるためです。速度も、Fuguはおおむね10倍前後遅いまま。さらに第3弾では、ある1問でFuguが**約609秒（10分超）**かかるという外れ値も出ました（ほかは20〜60秒程度）。実行時間が読みにくいのも、マルチエージェントならではの特徴と言えそうです。

まとめ

3本勝負を通してわかったことを、ゆるくまとめます。

正答率では、お題の性質によって勝者が変わりました。単純な実装なら単体Opusが安定して強く、見直しが効く引っかけ問題ではFuguが上回る場面もある。一方で速度（約10倍遅い）とコスト（3〜4倍高い、裏トークン込み）のハンデは、勝っても負けても一貫して残りました。

Fugu Ultraのようなマルチエージェント型を採用するなら、「正答率が単体を上回るかどうか」だけでなく、「そのために何倍の時間とコストを払うのか」「実行時間が読めるか」まで含めて見たほうがよさそうです。今回の範囲では、MMMMの罠のように「単体が一発で見落としがちな細部」では強みが出ましたが、それ以外では単体の高性能モデルで十分なケースが多い、というのが正直な手応えでした。

次にやってみたい検証

今回はすべて「コーディング」というFuguの主戦場での勝負でした。次は、まだ試せていない切り口を掘ってみたいと考えています。

① Fuguで別領域（長文・リサーチ系） 今回のサブスクのまま追加コストなしで試せる範囲として、長い文章からの正確な情報抽出や、複数ソースをまたぐ調査タスクなど、「コーディング以外」でFuguの真価を見てみたいところです。コーディングでは見えなかった強み・弱みが出るかもしれません。

② Sakana Marlinの検証 Fuguと同時に公開された自律型リサーチエージェント「Marlin」も気になっています。ただしMarlinは法人向けで料金体系がFuguとは別（月額数万円〜の規模）のため、検証するには別途の準備が必要です。「最大8時間の自律リサーチ」という性質上、成果物の質をどう評価するか、という設計の工夫も求められます。ここは費用対効果を見ながら、改めて検討したいテーマです。

なお、もう1つのプロダクト「Sakana Chat」については、現状ではAPIが公開されておらず、今回のような自動化した定量検証が難しいため、試すとしても「使ってみた感想」レベルの紹介になりそうです。

検証環境：Fugu Ultra（fugu-ultra-20260615、Responses API、reasoning effort=high）、Claude Opus 4.8。各お題は3回ずつ試行。コストはFugu Ultra入力$5／出力$30（per 1Mトークン、272Kコンテキスト以下、orchestrationトークン込み）で計算。Opus 4.8のレートは暫定値のため、正確なコストは最新の公式レートで再計算してください。お題と判定基準は事前に妥当性を確認のうえ公開しています。

‹ デザインから公開まで全部タダ。Claude Design×Replitを実際に試したら想像以上に簡単だった

"拡散方式"の新顔は、日本語OCRの王者に挑めるのか —— DiffusionGemmaを4エンジン対決に加えてみた ›

ブログ一覧へ