日本語OCRで評判の「Gemini」は、YomiTokuに勝った王者Claudeを超えられるのか

はじめに

前回、無料の日本語OCR「YomiToku」と、有料のClaudeを戦わせた記事を書きました。結果、精度ではClaudeに軍配が上がりました。

ただ、日本語OCRで評判のいいマルチモーダルLLMは、もうひとつあります——Gemini です。「日本語の読み取りならGemini」という声も、けっこうよく聞きますよね。

そこで今回は、前回勝ったClaudeに、このGeminiをぶつけます。同じ難所セット、同じ採点で。果たして評判のGeminiは、王者Claudeを超えられるのか。シリーズ第3弾です。

（前回記事）無料の日本語OCR「YomiToku」は、Claudeとどこまで戦えるのか

検証の設計：前回をまるごと使い回す

ここがシリーズものの強みです。前回作ったテスト画像（①縦書き・②請求書・③多段組み・④低解像度）も、採点スクリプト（CER＋文字カバー率）も、正解テキストも、ぜんぶそのまま使い回します。条件を完全に揃えられるので、3者をフェアに横並びで比べられます。

採点のものさしを軽くおさらいしておくと、CER（文字誤り率） は正解とどれだけ違うか（低いほど良い）、文字カバー率 は順番を無視して正解の文字をどれだけ拾えたか、です。この2つを併用するのが大事だ、というのが前回の学びでした。

使うモデルは、Claudeが前回と同じ最上位の Opus 4.8、Geminiは日本語OCRで評判の Gemini 2.5 Flash です。Claudeは最上位、Geminiは定番のFlash、という組み合わせ。共通プロンプトも、1枚ずつ独立リクエストで投げる（カンニング防止）のも、前回と完全に同じにしています。

Geminiに食わせてみる

まっさらな状態のGeminiに、4枚を1枚ずつ通していきます。

① 縦書き

完璧でした。読点も含めて誤りはゼロ、CERは0%。さすが、評判どおりの日本語の強さです。

② 請求書

これも文字は完璧。誤読ゼロ（文字カバー率100%）でした。CERは47.7%出ましたが、これは前回説明した「並び順のズレ」によるもので、文字は一つも間違っていません。ちなみにこの数字、Claudeと完全に同点でした。文字を読む力は、ここまで互角です。

③ 多段組み

……あれ？ここで、雲行きが怪しくなります。

2カラムの文章で、Geminiは左カラムと右カラムの行をつなげて読んでしまいました。「データをインターネット経由一方で、運用にあたっては」——左カラムの行末に、右カラムの行頭がそのままくっついている。これは前回、YomiTokuが見せたのと**まったく同じ「行の混線」**です。

評判のGeminiが、無料OSSのYomiTokuと同じ崩れ方をした。CERは75%まで上がりました。

④ 低解像度

低解像度は強かったです。かすれた固有名詞も金額もほぼ完璧に拾えて、誤読は「年額」を「年間」と読んだ1か所だけ。低品質な画像でもしっかり読めるのは、さすがの安定感でした。

3者を並べてみる

では、前回のYomiToku・Claudeに、今回のGeminiを加えた3者を並べてみます。

数字で整理すると、こうなりました。

難所	YomiToku	Claude	Gemini
① 縦書き	2.3% / 97.7%	0.0% / 100%	0.0% / 100%
② 請求書	60.4% / 100%	47.7% / 100%	47.7% / 100%
③ 多段組み	75.0% / 99.7%	0.0% / 100%	75.0% / 100%
④ 低解像度	66.2% / 87.7%	35.4% / 100%	57.7% / 99.6%
平均CER	51.0%	20.8%	45.1%

（数字は CER / 文字カバー率。CERは低いほど良い）

そして、③多段組みを3者並べると、違いが一目瞭然です。

[画像：compare_03_multicolumn.png（YomiToku）／compare_03_multicolumn_gemini.png（Gemini）／compare_03_multicolumn_claude.png（Claude）を縦に3枚]

YomiTokuもGeminiも同じように左右の行が混線しているのに、Claudeだけがカラムをスパッと分離できています。色分けを見比べると、その差がはっきり分かります。

分かったこと

今回いちばん面白かったのは、「文字を読む力」と「レイアウトを理解する力」は別物だった、という点です。

縦書きも請求書も、ClaudeとGeminiは完全に同点で、どちらも文字を完璧に読みました。Geminiの「日本語に強い」という評判は、決して誇張ではありません。文字を一文字ずつ正確に拾う力は、最上位のClaudeと互角です。

ところが、③多段組みで明暗が分かれました。複数カラムを正しい順番で読むには、「ここは2段組みだ」とレイアウトそのものを理解する必要があります。ここでClaudeだけが正しく構造を捉え、Geminiは（YomiTokuと同じく）左右を混ぜてしまった。④低解像度でも、Claudeのほうが安定して上回りました。

文字認識は互角。でも、レイアウトの読み順を理解する力で、差がついた——というのが今回の発見です。

結局、王者は守られたのか

精度の総合成績では、Claudeの連勝でした。平均CERは、Claude 20.8%、Gemini 45.1%、YomiToku 51.0%。

ただ、Geminiの名誉のために、もう一度書いておきます。「文字を読む力」だけなら、GeminiはClaudeと完全に互角でした。評判は本物です。今回たまたま、テストに多段組みという「レイアウト理解」を問う一問が入っていたために、そこで差がついた——という見方もできます。

逆に言えば、読ませる文書が単段組みの定型（請求書や縦書きの文章）なら、無料枠で動くGemini 2.5 Flashでも、最上位のClaudeとほぼ互角に戦える。これは実用上、かなり大きな発見だと思います。コストを考えれば、Geminiという選択は十分に「あり」です。

おわりに

3回にわたって、YomiToku・Claude・Geminiを同じ土俵で戦わせてきました。毎回テスト画像と採点を使い回せたおかげで、ブレのない比較ができたと思います。

次にやるなら、まだ試していない手書き文字での再戦が面白そうです。活字であれだけ拮抗した3者が、手書きという最大の難所でどう崩れるのか。気が向いたら、また手を動かしてみます。お付き合いいただき、ありがとうございました。