ガビガビでも読み取るAI

弊社がお客様の受発注業務の自動化を担当した際、当初はOCRベースで構築しました。しかし手書きやカスレた業務書類で精度が頭打ちになり、Vision LLMへ置き換えたところ大幅に改善しました。

本記事では、その実装経験から得られた知見をもとに、OCRとVision LLMの構造的な違いと、ノイズの多い業務書類で精度差が生まれる理由を解説します。

記事の流れ

OCRとVision LLMの違い

OCR（光学文字認識）は古い技術です。1970年代から実用化され、現在ではGoogle Cloud Vision、AWS Textract、Azure Document Intelligence など、エンタープライズ品質のサービスが揃っています。クリーンに印字された定型帳票なら、99%を超える文字認識精度を出します。

ところが、業務で実際に届く書類は必ずしもクリーンではありません。手書き、縦書き、何度もコピーされてカスレた紙、罫線が潰れた表 ─ こういった書類で、従来のOCRは頭打ちになることがあります。

近年登場したVision LLM（画像を直接理解できる大規模言語モデル）は、まったく違うアプローチで書類を読みます。

2つのアプローチを並べてみる

書類画像を構造化データに変換する処理は、大きく分けて2つの設計があります。

OCRとVision LLMのフロー比較

(1) 従来パイプライン: OCR → テキスト → LLM

書類画像 → OCR（テキスト化）→ LLM（構造化）→ JSON

OCRが文字列を抽出し、後段のLLMが「これは商品名」「これは数量」と意味づけして構造化します。役割分担が綺麗で、各ステップを独立して入れ替えられる利点があります。

(2) Vision LLM 直結: 画像 → 構造化データ

書類画像 → Vision LLM → JSON

Vision LLMが画像をそのまま読み、文字認識と意味理解を同時に行って構造化データを直接出力します。

実装イメージ：

const result = await anthropic.messages.create({
  model: "claude-sonnet-4-6",
  messages: [{
    role: "user",
    content: [
      { type: "image", source: { type: "base64", data: imageBase64 } },
      { type: "text", text: "この発注書から商品コード・数量・単価をJSONで抽出してください。空欄はnullで返してください。" }
    ]
  }]
});

一見、構成図は片方が短いだけに見えますが、両者の精度特性は大きく異なります。それは、(1)では「テキスト化」というロスのある中間表現が挟まるからです。

業務書類で従来OCRが崩れる4つのパターン

業務書類で起きる失敗は、おおむね以下のパターンに分類できます。

パターンA: 縦書き表で列の対応がずれる

商品名・商品コード・数量・単価が縦に並ぶ典型的な発注表で、OCRが文字を「読み順」で出力するとき、列のセル順がインターリーブして崩れることがあります。後段のLLMは崩れたテキストから元の列構造を復元できず、商品コードを数量と取り違える、といった事故が起きます。

パターンB: 手書きの数字を別文字に誤認

手書きで雑に書かれた「2」が「Z」に、「1」が「7」や「/」に判定されるケース。OCRは1文字単位で確定するので、周囲の文脈（「数量列だから数字のはず」）を考慮しません。後段のLLMには「Z」が渡るので、それが本来「2」だったと回復するのは困難です。

パターンC: 空欄を「読めない」と「空欄」で区別できない

表の一部のセルが空欄のとき、OCRはそれを単に「文字がなかった」として無視するか、ノイズを拾って何かしらの文字として返します。後段のLLMには「文字が無い」「謎の文字がある」のどちらかが渡るだけで、「ここは空欄である」という意味が伝わらない。結果、LLMが「たぶん前の行と同じ値だろう」と推測で埋めてしまうことがあります。

パターンD: カスレた罫線を文字として拾う

スキャンが何度もコピーされた書類では、罫線の一部が破線や点列に見えます。これをOCRが「・」「ー」「I」などの文字として拾い、表の中に意味のないノイズが混入します。後段のLLMはこのノイズを除去するのに苦労します。

なぜVision LLMは同じ書類で踏ん張れるのか

上の失敗パターンに対して、Vision LLMは構造的に強い理由が4つあります。

① 文字認識と意味理解が同時に走る

Vision LLMは「字形を判定する」と「意味を解釈する」を分離しません。手書きの「2」が潰れて「Z」のようにも見えるとき、

列ヘッダが「数量」と書かれている
上下の行は数字が並んでいる
字形は「2」「Z」のどちらにも近い

…という材料を同時に重ね合わせて判断します。文字レベルで早期確定しないので、文脈で曖昧さを解決できる余地が残ります。

② 2次元レイアウトをそのまま使える

OCRが返すテキストは1次元の文字列であり、表の構造（どのセルがどの列に属するか）は中間で失われます。後段のLLMはテキストとバウンディングボックス情報を組み合わせて構造を再構築する必要があります。

Vision LLMは画像をそのまま入力に取るため、「画像上の位置関係」を直接利用できます。縦書き表で列対応が崩れる問題は、そもそも発生しません。

③ 「空欄」を「空欄」として扱える

Vision LLMに「空欄行はnullを返してください」と指示すると、空欄を空欄として認識してnullを返します。「読めなかった」と「書いてなかった」を区別できるのは、書類全体を眺めた上で判断できるからです。

これは地味ですが業務上は大きな違いで、「埋めなかった項目」と「読み取れなかった項目」を後段で区別して扱えるようになります。

④ 整合性チェックを内包できる

「合計金額が単価×数量と合っていない」「数量列なのにアルファベットがある」といった書類内部の整合性を、Vision LLMはモデル内部で同時に評価できます。怪しい数値を文脈と照らして補正したり、矛盾があるときに最も整合する解釈を選ぶことができます。

OCRには整合性の概念が無いため、誤認した文字を後段のLLMでチェックするしかありません。しかし後段のLLMは「OCRが返した文字列」を入力として扱うため、字形に戻って再判断することはできません。

実運用での数値

ここまで定性的な議論をしてきましたが、参考までに、弊社がOCRからVision LLM（Claude Sonnet 4.6 + PDF直接入力）に置き換えたお客様の受発注自動化システムでの実装数値を紹介します。

トークン使用量

新構成の1件あたりのトークン消費は以下の通りです（A4 1〜3ページのFAXで実測）：

入力トークン: 約3,000（PDF画像をそのまま渡す）
出力トークン: 約800（構造化JSON）

Vision LLMはOCRパイプラインと比べてAPI単価は高めですが、後述の手戻り削減効果を考慮すると、業務全体のコストではバランスが取れます。

手戻り削減の検証

切り替え判断にあたって、内部運用で過去1週間に発生した手戻り6件を取り出し、新構成で再処理する検証を行いました。

件数	結果
5件	正しく抽出できた（手戻り発生せず）
1件	原本のスキャン品質が極端に低く、人間でも判読困難なケース

つまり、OCR起因の手戻りは実質的に解消できることが確認できました。

レイテンシ

新構成は1件あたり5〜15秒かかります（Claude Sonnet 4.6 のVision API応答時間・実測）。

FAX受注はリアルタイム応答が求められない非同期処理（受信 → バックグラウンドで処理 → 担当者が後で確認）なので、レイテンシ増は業務上の問題になりません。

どちらを使うべきか

Vision LLMが万能ではありません。コストとレイテンシはVision LLMの方が高めです（1件あたり数円〜十数円、応答に数秒）。逆にクリーンな印字書類を大量にバッチ処理する場面では、OCRの方が桁違いに安く、速く、十分な精度を出します。

判断基準は、「書類のノイズ性」と「リカバリーコスト」のバランスです。

状況	適した選択
クリーンに印字された定型帳票・大量バッチ	OCR
手書き・縦書き・カスレが混じる多様な書類	Vision LLM
認識ミスを後段で修正するコストが高い業務	Vision LLM
認識結果を最終的に目視確認する前提の業務	OCR

業務FAXのような「ノイズの多い書類を相手に、後段の手戻りを減らしたい」という条件では、Vision LLMが現状ベストの選択肢になります。

まとめ

OCRとVision LLMは、敵対する技術ではなく、適用領域の異なる技術です。OCRが数十年かけて積み上げた精度・速度・コスト効率は今でも有効で、用途によってはVision LLMより良い選択になります。

ただし、業務書類の「現実」 ─ 手書き・縦書き・カスレ・空欄 ─ に対しては、Vision LLMが構造的に強い理由があります。それは、テキスト化という中間表現を挟まず、書類画像をそのまま意味で読み取れるからです。

「OCRで上手くいかない」と感じている書類処理があれば、Vision LLMへの置き換えを検討する価値があります。

業務書類の自動化でお困りの方は、Taffyの「省力AIシステム開発」までご相談ください。お客様の業務フローに合わせて、OCR・Vision LLMのどちらが適しているかも含めて、無料でご相談を承ります。

Let's 省力。省力した分、もっと人間らしく。