Case Studies

AI OCRで注文書処理を自動化し、事務作業のミスを大幅に削減

プロジェクト情報
検証対象 AI OCR、生成AI
主要技術 MLLM(マルチモーダル大規模言語モデル)、AWS Lambda、Amazon Bedrock

近年、企業での生成AIの活用が急速に進んでいます。中でも特に注目されている領域の1つが、AI OCR(AI Optical Character Recognition:AIによる光学的文字認識)を活用した帳票処理などの事務作業の自動化です。

従来のOCR技術では、定型フォーマットの帳票にしか対応できず、事前の学習も必要でした。しかし、生成AIを活用したAI OCRはこの制約を大きく打破し、非定型文書にも柔軟かつ高精度に対応できる文書解析が可能となっています。

この記事では、Tech Funが自社の受注業務にAI OCRを導入した事例をご紹介します。

従来型のOCRには、以下のような課題がありました。

  • 特定の定型フォーマットでないと正確に読み取れない
  • フォーマットごとに事前の学習が必要
  • 初期導入に時間とコストがかかる

これらの課題により、導入を積極的に進めにくい状況が一部で見られました。

一方で、AI OCRには以下のような利点があります。

  • さまざまな形式の帳票を柔軟かつ自動的に解析できる
  • フォーマットごとの事前の学習が不要
  • LLM(大規模言語モデル)のAPI利用料のみで運用可能で、従来型OCRのような高額な初期導入コストがかからない

このように、AI OCRは従来型OCRの限界を超える革新性を備えています。

Tech Funでは、顧客から受領した注文書をもとに、「受注台帳」と呼ばれる社内文書を作成・管理しています。

この受注台帳には以下のような情報を記録しています。

  • 顧客名
  • 契約期間
  • 契約タイプ
  • 支払条件(支払いサイトなど)
  • etc.

受注台帳はGoogleスプレッドシートで作成しており、必要な情報がすべて記録されています。

これらの情報は請求処理などの後続業務にも連携されるため、漏れなく正確に入力・管理することが求められます。

しかし従来は、注文書の内容をすべて手作業で受注台帳に転記していたため、次のような課題が発生していました。

  • 注文書の枚数や情報項目が多く、処理に膨大な時間がかかる
  • 手作業ゆえに、入力ミスや記入漏れが発生しやすい

前述の課題を解決するため、Tech Funは自社でAI OCRシステムを開発・導入しました。

導入の主なポイントは次の通りです。

  • マルチモーダルLLMにより、注文書の多様なフォーマットに対応
  • AI OCRの中核は、マルチモーダルLLM(MLLM:マルチモーダル大規模言語モデル)です。

    従来のLLM(大規模言語モデル)はテキストの入出力に特化していましたが、MLLMはテキストに加えて画像や音声など、さまざまな形式のデータを統合的に処理することができます。

    AI OCRはこのMLLMを活用することで、非定型な文書であっても全体を視覚的に把握し、各情報の意味や種類を的確に判断することが可能です。

    今回の事例でも、顧客ごとに注文書のフォーマットやデータ形式が異なっていたにもかかわらず、正確に読み取りを行うことができました。

  • 情報の自動識別と構造化
  • MLLMによって、文書全体を把握した上で、工数や納期、支払条件(支払いサイト)などの重要情報が自動的に識別・構造化されるように設計しました。

    識別された情報は、受注台帳に正確に転記され、担当者が目視でチェックできるようにしました。

処理の流れ

今回開発したAI OCRシステムは、以下の流れで処理を実行します。

  • 1.
    注文書ファイルをGoogleドライブに保存する
  • 2.
    Googleスプレッドシート上の実行ボタンをクリックすると、Google Apps Scriptが注文書ファイルを取得する
  • 3.
    注文書ファイルがAWS Lambdaに送信され、マルチモーダルLLMによって内容が解析される
  • 4.
    解析した結果がGoogle Apps Scriptに渡され、必要な情報がGoogleスプレッドシートに記載される
  • 5.
    担当者がGoogleスプレッドシートに記載された内容を確認する

このように、従来は担当者が手作業で行っていた業務を自動化することで、確認作業のみで処理を完了できるようになりました。

システムの全体像は以下の通りです。

実際のコード

マルチモーダルLLMに対する処理を記述した実際のコードもご紹介します。

読み取る情報の項目は、以下のように指示を出しています。

読み取る情報の項目を定義するコード

出力情報の形式は以下のように定義しています。

出力する形式を定義するコード

AI OCRの最大の効果は、人手による作業に伴って発生しがちな誤記や入力漏れなどのヒューマンエラーを大幅に削減できた点にあります。

また、担当者の作業時間も大幅に短縮され、修正や手戻りがほとんど発生しなくなりました。

これにより、業務全体の効率が向上し、より付加価値の高い業務に専念できるようになりました。

今回の事例が示すように、AI OCRは煩雑な事務作業を抜本的に改善する大きな可能性を秘めています。

「事務作業にかかる時間をもっと減らしたい」
「人手に頼らない業務フローを構築したい」

このような課題を抱える企業にとって、AI OCRは有力なソリューションとなり得ます。

ご興味のある方は、ぜひTech Funまでお気軽にお問い合わせください。

Download

ダウンロード資料サンプル ダウンロード資料サンプル
Tech Funの会社案内、ITソリューション事例、 Java研修のご案内をPDFファイルにまとめております。 社内でのご検討の際に、ぜひご活用ください。
資料ダウンロード

Contact

お問い合わせイメージ
システム開発やIT研修に関するご相談、 Tech Fun株式会社に関するご質問など、 どんなことでもお気軽にお問い合わせください。
お問い合わせ