日本語OCRで評判の「Gemini」は、YomiTokuに勝った王者Claudeを超えられるのか
日本語OCRで評判の「Gemini」は、YomiTokuに勝った王者Claudeを超えられるのか


はじめに
前回、無料の日本語OCR「YomiToku」と、有料のClaudeを戦わせた記事を書きました。結果、精度ではClaudeに軍配が上がりました。
ただ、日本語OCRで評判のいいマルチモーダルLLMは、もうひとつあります——Gemini です。「日本語の読み取りならGemini」という声も、けっこうよく聞きますよね。
そこで今回は、前回勝ったClaudeに、このGeminiをぶつけます。同じ難所セット、同じ採点で。果たして評判のGeminiは、王者Claudeを超えられるのか。シリーズ第3弾です。
(前回記事)無料の日本語OCR「YomiToku」は、Claudeとどこまで戦えるのか
検証の設計:前回をまるごと使い回す
ここがシリーズものの強みです。前回作ったテスト画像(①縦書き・②請求書・③多段組み・④低解像度)も、採点スクリプト(CER+文字カバー率)も、正解テキストも、ぜんぶそのまま使い回します。条件を完全に揃えられるので、3者をフェアに横並びで比べられます。
採点のものさしを軽くおさらいしておくと、CER(文字誤り率) は正解とどれだけ違うか(低いほど良い)、文字カバー率 は順番を無視して正解の文字をどれだけ拾えたか、です。この2つを併用するのが大事だ、というのが前回の学びでした。
使うモデルは、Claudeが前回と同じ最上位の Opus 4.8、Geminiは日本語OCRで評判の Gemini 2.5 Flash です。Claudeは最上位、Geminiは定番のFlash、という組み合わせ。共通プロンプトも、1枚ずつ独立リクエストで投げる(カンニング防止)のも、前回と完全に同じにしています。

Geminiに食わせてみる
まっさらな状態のGeminiに、4枚を1枚ずつ通していきます。
① 縦書き
完璧でした。読点も含めて誤りはゼロ、CERは0%。さすが、評判どおりの日本語の強さです。
② 請求書
これも文字は完璧。誤読ゼロ(文字カバー率100%)でした。CERは47.7%出ましたが、これは前回説明した「並び順のズレ」によるもので、文字は一つも間違っていません。ちなみにこの数字、Claudeと完全に同点でした。文字を読む力は、ここまで互角です。
③ 多段組み

……あれ? ここで、雲行きが怪しくなります。
2カラムの文章で、Geminiは左カラムと右カラムの行をつなげて読んでしまいました。「データをインターネット経由 一方で、運用にあたっては」——左カラムの行末に、右カラムの行頭がそのままくっついている。これは前回、YomiTokuが見せたのと**まったく同じ「行の混線」**です。
評判のGeminiが、無料OSSのYomiTokuと同じ崩れ方をした。CERは75%まで上がりました。
④ 低解像度

低解像度は強かったです。かすれた固有名詞も金額もほぼ完璧に拾えて、誤読は「年額」を「年間」と読んだ1か所だけ。低品質な画像でもしっかり読めるのは、さすがの安定感でした。
3者を並べてみる
では、前回のYomiToku・Claudeに、今回のGeminiを加えた3者を並べてみます。

数字で整理すると、こうなりました。
難所 | YomiToku | Claude | Gemini |
|---|---|---|---|
① 縦書き | 2.3% / 97.7% | 0.0% / 100% | 0.0% / 100% |
② 請求書 | 60.4% / 100% | 47.7% / 100% | 47.7% / 100% |
③ 多段組み | 75.0% / 99.7% | 0.0% / 100% | 75.0% / 100% |
④ 低解像度 | 66.2% / 87.7% | 35.4% / 100% | 57.7% / 99.6% |
平均CER | 51.0% | 20.8% | 45.1% |
(数字は CER / 文字カバー率。CERは低いほど良い)
そして、③多段組みを3者並べると、違いが一目瞭然です。
[画像:compare_03_multicolumn.png(YomiToku)/compare_03_multicolumn_gemini.png(Gemini)/compare_03_multicolumn_claude.png(Claude)を縦に3枚]
YomiTokuもGeminiも同じように左右の行が混線しているのに、Claudeだけがカラムをスパッと分離できています。色分けを見比べると、その差がはっきり分かります。
分かったこと
今回いちばん面白かったのは、「文字を読む力」と「レイアウトを理解する力」は別物だった、という点です。
縦書きも請求書も、ClaudeとGeminiは完全に同点で、どちらも文字を完璧に読みました。Geminiの「日本語に強い」という評判は、決して誇張ではありません。文字を一文字ずつ正確に拾う力は、最上位のClaudeと互角です。
ところが、③多段組みで明暗が分かれました。複数カラムを正しい順番で読むには、「ここは2段組みだ」とレイアウトそのものを理解する必要があります。ここでClaudeだけが正しく構造を捉え、Geminiは(YomiTokuと同じく)左右を混ぜてしまった。④低解像度でも、Claudeのほうが安定して上回りました。
文字認識は互角。でも、レイアウトの読み順を理解する力で、差がついた——というのが今回の発見です。
結局、王者は守られたのか
精度の総合成績では、Claudeの連勝でした。平均CERは、Claude 20.8%、Gemini 45.1%、YomiToku 51.0%。
ただ、Geminiの名誉のために、もう一度書いておきます。「文字を読む力」だけなら、GeminiはClaudeと完全に互角でした。評判は本物です。今回たまたま、テストに多段組みという「レイアウト理解」を問う一問が入っていたために、そこで差がついた——という見方もできます。
逆に言えば、読ませる文書が単段組みの定型(請求書や縦書きの文章)なら、無料枠で動くGemini 2.5 Flashでも、最上位のClaudeとほぼ互角に戦える。これは実用上、かなり大きな発見だと思います。コストを考えれば、Geminiという選択は十分に「あり」です。
おわりに
3回にわたって、YomiToku・Claude・Geminiを同じ土俵で戦わせてきました。毎回テスト画像と採点を使い回せたおかげで、ブレのない比較ができたと思います。
次にやるなら、まだ試していない手書き文字での再戦が面白そうです。活字であれだけ拮抗した3者が、手書きという最大の難所でどう崩れるのか。気が向いたら、また手を動かしてみます。お付き合いいただき、ありがとうございました。
はじめに
前回、無料の日本語OCR「YomiToku」と、有料のClaudeを戦わせた記事を書きました。結果、精度ではClaudeに軍配が上がりました。
ただ、日本語OCRで評判のいいマルチモーダルLLMは、もうひとつあります——Gemini です。「日本語の読み取りならGemini」という声も、けっこうよく聞きますよね。
そこで今回は、前回勝ったClaudeに、このGeminiをぶつけます。同じ難所セット、同じ採点で。果たして評判のGeminiは、王者Claudeを超えられるのか。シリーズ第3弾です。
(前回記事)無料の日本語OCR「YomiToku」は、Claudeとどこまで戦えるのか
検証の設計:前回をまるごと使い回す
ここがシリーズものの強みです。前回作ったテスト画像(①縦書き・②請求書・③多段組み・④低解像度)も、採点スクリプト(CER+文字カバー率)も、正解テキストも、ぜんぶそのまま使い回します。条件を完全に揃えられるので、3者をフェアに横並びで比べられます。
採点のものさしを軽くおさらいしておくと、CER(文字誤り率) は正解とどれだけ違うか(低いほど良い)、文字カバー率 は順番を無視して正解の文字をどれだけ拾えたか、です。この2つを併用するのが大事だ、というのが前回の学びでした。
使うモデルは、Claudeが前回と同じ最上位の Opus 4.8、Geminiは日本語OCRで評判の Gemini 2.5 Flash です。Claudeは最上位、Geminiは定番のFlash、という組み合わせ。共通プロンプトも、1枚ずつ独立リクエストで投げる(カンニング防止)のも、前回と完全に同じにしています。

Geminiに食わせてみる
まっさらな状態のGeminiに、4枚を1枚ずつ通していきます。
① 縦書き
完璧でした。読点も含めて誤りはゼロ、CERは0%。さすが、評判どおりの日本語の強さです。
② 請求書
これも文字は完璧。誤読ゼロ(文字カバー率100%)でした。CERは47.7%出ましたが、これは前回説明した「並び順のズレ」によるもので、文字は一つも間違っていません。ちなみにこの数字、Claudeと完全に同点でした。文字を読む力は、ここまで互角です。
③ 多段組み

……あれ? ここで、雲行きが怪しくなります。
2カラムの文章で、Geminiは左カラムと右カラムの行をつなげて読んでしまいました。「データをインターネット経由 一方で、運用にあたっては」——左カラムの行末に、右カラムの行頭がそのままくっついている。これは前回、YomiTokuが見せたのと**まったく同じ「行の混線」**です。
評判のGeminiが、無料OSSのYomiTokuと同じ崩れ方をした。CERは75%まで上がりました。
④ 低解像度

低解像度は強かったです。かすれた固有名詞も金額もほぼ完璧に拾えて、誤読は「年額」を「年間」と読んだ1か所だけ。低品質な画像でもしっかり読めるのは、さすがの安定感でした。
3者を並べてみる
では、前回のYomiToku・Claudeに、今回のGeminiを加えた3者を並べてみます。

数字で整理すると、こうなりました。
難所 | YomiToku | Claude | Gemini |
|---|---|---|---|
① 縦書き | 2.3% / 97.7% | 0.0% / 100% | 0.0% / 100% |
② 請求書 | 60.4% / 100% | 47.7% / 100% | 47.7% / 100% |
③ 多段組み | 75.0% / 99.7% | 0.0% / 100% | 75.0% / 100% |
④ 低解像度 | 66.2% / 87.7% | 35.4% / 100% | 57.7% / 99.6% |
平均CER | 51.0% | 20.8% | 45.1% |
(数字は CER / 文字カバー率。CERは低いほど良い)
そして、③多段組みを3者並べると、違いが一目瞭然です。
[画像:compare_03_multicolumn.png(YomiToku)/compare_03_multicolumn_gemini.png(Gemini)/compare_03_multicolumn_claude.png(Claude)を縦に3枚]
YomiTokuもGeminiも同じように左右の行が混線しているのに、Claudeだけがカラムをスパッと分離できています。色分けを見比べると、その差がはっきり分かります。
分かったこと
今回いちばん面白かったのは、「文字を読む力」と「レイアウトを理解する力」は別物だった、という点です。
縦書きも請求書も、ClaudeとGeminiは完全に同点で、どちらも文字を完璧に読みました。Geminiの「日本語に強い」という評判は、決して誇張ではありません。文字を一文字ずつ正確に拾う力は、最上位のClaudeと互角です。
ところが、③多段組みで明暗が分かれました。複数カラムを正しい順番で読むには、「ここは2段組みだ」とレイアウトそのものを理解する必要があります。ここでClaudeだけが正しく構造を捉え、Geminiは(YomiTokuと同じく)左右を混ぜてしまった。④低解像度でも、Claudeのほうが安定して上回りました。
文字認識は互角。でも、レイアウトの読み順を理解する力で、差がついた——というのが今回の発見です。
結局、王者は守られたのか
精度の総合成績では、Claudeの連勝でした。平均CERは、Claude 20.8%、Gemini 45.1%、YomiToku 51.0%。
ただ、Geminiの名誉のために、もう一度書いておきます。「文字を読む力」だけなら、GeminiはClaudeと完全に互角でした。評判は本物です。今回たまたま、テストに多段組みという「レイアウト理解」を問う一問が入っていたために、そこで差がついた——という見方もできます。
逆に言えば、読ませる文書が単段組みの定型(請求書や縦書きの文章)なら、無料枠で動くGemini 2.5 Flashでも、最上位のClaudeとほぼ互角に戦える。これは実用上、かなり大きな発見だと思います。コストを考えれば、Geminiという選択は十分に「あり」です。
おわりに
3回にわたって、YomiToku・Claude・Geminiを同じ土俵で戦わせてきました。毎回テスト画像と採点を使い回せたおかげで、ブレのない比較ができたと思います。
次にやるなら、まだ試していない手書き文字での再戦が面白そうです。活字であれだけ拮抗した3者が、手書きという最大の難所でどう崩れるのか。気が向いたら、また手を動かしてみます。お付き合いいただき、ありがとうございました。
