AIは今、
手書きを「読む」のではなく、
「理解する」。
homulaのDocument AI Agentは、最新マルチモーダルLLMの文書理解能力を活用し、手書き・スキャン・複雑レイアウトを含む帳票・文書の読み取りから転記・照合・承認フローまでをAIエージェントが自律実行する、エンタープライズ向けエンドツーエンド文書処理サービスです。
「AIに手書きは無理」は、もう過去の話です。請求書・発注書・契約書・手書き申請書・検査帳票など幅広い文書種別に対応。最短2週間でPoC開始。
DOCUMENT AI AGENT PIPELINE
従来OCRは②〜③まで / homulaは②〜⑦をAIエージェントが自律実行
Intelligence
「読む」OCRから、
「理解する」AIへ。
多くの方がまだご存知ないかもしれませんが、最新のマルチモーダルLLMは従来のOCRとは根本的に異なります。文字を「検出」するのではなく、文書の「意味」を理解します。
TRADITIONAL OCR
文字を「検出」する
ピクセルパターンからテキストを抽出する処理。テンプレートに依存し、レイアウト変化や手書きに脆弱。認識した文字列の「意味」は理解しない。
MULTIMODAL LLM
文書を「理解」する
文書全体を視覚的に把握し、レイアウト構造・文脈・意味を同時に処理。手書きの崩し字も周辺情報から補完。「何が書かれているか」だけでなく「何を意味するか」まで推論する。
手書き文字を「読む」だけでなく「理解する」
手書きの数字・文字を認識するだけでなく、文脈から意味を補完します。「7」と「1」の判別、略字・崩し字の解釈、記入漏れ箇所の推定。従来OCRが「文字認識器」だとすれば、マルチモーダルLLMは「意味理解器」です。
APPLIES TO
非定型レイアウトにテンプレート不要
取引先ごとに異なる請求書フォーマット、バラバラな表の列構成、縦横混在のセル結合。LLMは文書の視覚的構造を人間と同様に「読み解き」、テンプレートなしで構造化データを抽出します。
APPLIES TO
「書かれていないこと」も推論する
金額の内税・外税の判断、記載単位(千円・万円)の推定、日付の表記ゆれ(令和/西暦/略記)の統一。文書に明記されていない文脈的情報を、業務ルール(SKILL.md)との照合で正確に補完します。
APPLIES TO
複数ページをまたぐ情報を統合する
1件の取引が複数ページにわたる発注書、添付書類と本文を照合する契約書、前後ページの数値を合算する明細帳票。最新LLMの長大なコンテキスト処理能力で、複数ページを一括して理解します。
APPLIES TO
The Problem
「AI OCR」だけでは、
現場の工数は減らない。
読み取り精度の問題は解決しつつあります。残る課題は「読み取った後の処理」です。
読み取れても、転記・照合は手作業のまま
AI OCRの精度はすでに実用水準に到達しています。しかし工数の大半は「読み取った後」の転記・突合・例外処理に費やされており、OCRツールだけでは削減できません。
帳票の多様性がテンプレートを無力化する
取引先ごとに異なるレイアウト、手書き混在、スキャン品質のばらつき。従来OCRはテンプレート依存のため、帳票種別が増えるほどメンテナンスコストが膨らみます。
例外・差異の判断に「人の目」が必要
金額不一致・記載ミス・未登録取引先など、例外発生時の対応が属人化しています。完全自動化の前に必ず「人の確認」が挟まり、処理速度の上限を下げています。
Why Now
なぜ今、これが可能になったのか
マルチモーダルLLMの急速な進化が、文書処理の常識を塗り替えました。homulaは複数のフロンティアモデルを帳票特性・要件に応じて中立な立場で選定・構成します。
複雑レイアウト・手書きに最高水準の精度
最新マルチモーダルLLMは業界標準ベンチマーク(OmniDocBench)で従来手法を大幅に超える精度を記録。ネスト表・段組み・手書き混在・低品質スキャンにゼロショットで対応します。
100万トークン超の長文書を一括処理
数百ページの契約書・報告書を分割せず一括処理。ページをまたぐ参照・前後の文脈照合・累計金額の整合確認を単一の推論で完結させます。
データを日本国内に閉じるクラウド構成
国内リージョン指定のマネージドAPI経由で利用することで、処理データが日本国内サーバーのみで完結します。「外部に出せない」文書も、セキュリティ要件を満たした形で自動化できます。
帳票特性・要件に応じた中立な最適構成
homulaは特定のLLMベンダーに依存しない中立な設計者として、帳票の種類・セキュリティ要件・処理ボリュームに応じて最適なモデルを選定します。ベンダーロックインを回避しながら最高精度を維持します。
Why homula
なぜhomulaのDocument AI Agentが選ばれるのか
AIは「見るだけ」でなく「理解する」
手書き / 非定型 / 複数ページ / 文脈推論
最新マルチモーダルLLMは人間と同じ方法で文書を解読します。手書き文字の文脈補完、非定型レイアウトの構造理解、複数ページをまたぐ情報の統合、書かれていない文脈の推論。これはOCRの「進化版」ではなく、根本的に異なる処理です。
OCRの先——後工程をAIエージェントが自律実行
転記・照合・承認フローまで一気通貫
従来のOCRツールは「読み取り」で止まります。homulaはn8n / Dify / LangGraph上に構築したAIエージェントが、読み取り後の転記・突合・業務ルール判定・例外通知・ERPへの書き込みまでを自律実行します。人の手が介在するのは例外承認のみ。
業務ルールをSKILL.mdにパッケージ化
帳票の多様性に対応する知識ポータビリティ
取引先ごとのレイアウト差異・業界固有の照合ルール・例外処理の判断基準をAgent Skills(SKILL.md)として定義します。テンプレートメンテナンスから解放され、新規帳票種別への対応もスキル追加で完結します。
国内リージョン閉域でデータを守る
「外部に出せない」文書も自動化できる
国内リージョン指定のマネージドAPIを使用することで、文書データが日本国内サーバーのみで処理されます。さらにAgens Controlのゲートウェイ機能でAPI呼び出しログを完全記録、J-SOX監査にも対応します。
Use Cases
印刷物も手書きも、
あらゆる帳票・文書に対応
特に手書きが多い現場帳票・申請書類は、これまで「自動化は難しい」とされてきた領域です。
受発注・請求処理
発注書 / 注文確認書 / 請求書 / 納品書
AGENT FLOW
OCR → 発注データ照合 → ERP自動転記 → 支払承認フロー
手書き申請・現場帳票
手書き対応手書き申請書 / 点検票 / 作業報告書 / 出荷指示票
AGENT FLOW
手書きOCR → 文脈補完 → データ正規化 → システム登録
契約書・法務文書
契約書 / NDA / 覚書 / 規約文書
AGENT FLOW
OCR → 条項抽出 → リスク判定 → 担当者通知 → 承認WF
検査・品質帳票
手書き対応検査報告書 / 品質記録 / 測定データ帳票
AGENT FLOW
手書き数値OCR → 基準値照合 → 異常アラート → ログ記録
Comparison
従来OCR・LLM単体との違い
| 比較項目 | 従来OCRツール | LLM単体 | homula Document AI Agent |
|---|---|---|---|
| 手書き文字の認識 | △ 専用学習必要 | ○ 一定対応 | ◎ 文脈補完で高精度業務文書レベルの手書きに対応 |
| 非定型レイアウト対応 | ✗ テンプレ必須 | ○ ゼロショット可 | ◎ テンプレ不要スキル追加で新規帳票に対応 |
| 複数ページ情報の統合 | ✗ | ○ 長コンテキスト | ◎ 一括処理100万トークン超対応 |
| 後工程(転記・照合) | ✗ 対象外 | △ 単発のみ | ◎ エージェント自律実行n8n / Dify 連携 |
| 業務ルールの適用 | ✗ | △ 固定化困難 | ◎ SKILL.md でパッケージ化業務知識の移植可能な実装 |
| 閉域・データ主権 | ○ オンプレ可 | △ 要件次第 | ◎ 国内リージョン閉域データ国内完結 |
| 監査ログ・ガバナンス | △ | ✗ | ◎ Agens Control5年監査ログ / J-SOX対応 |
Security
「データを外に出せない」には、
4つの答えがあります。
セキュリティ懸念は一括りにできません。まずお客様の懸念を4類型に整理し、要件に応じた最適な構成を設計します。
学習利用制御
入力データがモデル改善に使われる懸念。APIを通じた利用は各社ポリシーで学習データに使用されないため、規約確認で解決できます。
データ保存リージョン
どの国のサーバーに保存されるかの懸念。国内リージョン指定のマネージドAPIを使用することで、データの日本国内完結が可能です。
完全ローカル化
外部API呼び出し自体を禁止したい懸念。オープンソース系LLMのオンプレミス構成またはVPC閉域網で対応します。
PII・機密データのマスキング
個人情報・機密情報をLLMに渡したくない懸念。プロンプトレイヤーでのPIIマスキング処理とAgens Controlの入力フィルタリングで対応します。
Agens Control との統合: ゲートウェイ機能によるAPI呼び出しの完全ログ記録・RBAC/ABAC権限管理・5年監査ログ保持でJ-SOX対応を実現します。Agens Control を詳しく見る →
Process
最短2週間で、PoCを開始できます
業務要件ヒアリング
対象帳票のサンプル収集・業務フロー棚卸し・セキュリティ要件の確認。手書き比率・帳票の多様性・処理件数を定量化し、最適な構成の初期方針を決定します。
PoC パイプライン構築
主要帳票3〜5種を対象にエンドツーエンドのPoCパイプラインを構築。読み取り精度・後工程実行率・例外件数を定量化します。
精度チューニング・SKILL.md化
PoC結果をもとに業務ルールをAgent Skills(SKILL.md)に実装。例外パターンの処理ロジックとHuman-in-the-Loopの承認フロー設計を完成させます。
本番移行・横展開
パイロット部署での本番稼働後、対象帳票種別の拡大と他部署への横展開を支援。Agens Controlでガバナンス体制を整備し、内製化に移行します。
Pricing
PoCから始めて、
成果に応じて拡張する。
小さく始めてROIを確認してから拡大できる段階的な構成を提供しています。費用はすべてお問い合わせください。
Phase 0: PoC スターター
主要帳票3種・2週間
Phase 1+2: Agent Skills 開発込み
帳票10種・2〜3ヶ月
Phase 3+4: 本番基盤 + Agens Control
全社展開・ガバナンス込み
マネージドサービス(Phase 5)
月次レビュー・スキル拡充・運用
FAQ
よくある質問
業務文書レベルの手書きであれば対応可能です。最新マルチモーダルLLMは文字認識だけでなく「文脈から意味を補完する」能力を持っており、崩し字・略字・一部判読困難な文字も周辺の情報から推論します。ただし極端に劣悪な品質(薄すぎるインク・強いノイズ等)では精度が低下するケースがあるため、まずサンプル帳票でのPoC検証を推奨します。
対応できます。従来のOCRはテンプレートを取引先ごとに作成・維持する必要がありましたが、マルチモーダルLLMはテンプレートなしで文書の構造を理解します。新規取引先の帳票が増えても、Agent Skills(SKILL.md)を追加するだけで対応できます。
「データを外に出したくない」という懸念は実際には4類型に分解されます。①学習利用の懸念(APIはモデル学習に使用されない)、②保存リージョンの懸念(国内リージョン指定で解決)、③外部API自体を禁止したい(オンプレLLM構成)、④PIIマスキング(プロンプトレイヤーで処理)。どの類型かをまず整理した上で、要件に応じた構成を設計します。
入れ替えは不要です。既存OCRを読み取りエンジンとして維持しつつ、後工程(転記・照合・承認フロー)にAIエージェントを追加する段階的な構成が可能です。既存投資を活かしながら自動化率を引き上げます。
精度100%の保証はどのシステムでも困難です。homulaでは「完全自動化できるケース」と「Human-in-the-Loopが必要な例外ケース」を明確に分離し、例外率・承認工数の定量目標をPoCで設定します。通常、処理件数の90〜95%以上を自動化し、残り5〜10%の例外のみ人が確認する設計を目指します。
主要帳票3〜5種を対象としたPoCは最短2週間で開始できます。費用はお問い合わせください。PoCではエンドツーエンドのパイプライン構築・精度測定・ROI試算まで実施し、本番導入の判断材料をそろえます。
Get Started
まず、帳票サンプルを見せてください。
2週間でPoCを始めます。
帳票の種類・手書き比率・処理件数・現在の課題をヒアリングし、最適な構成とROI試算を無料でご提案します。「自動化できるか半信半疑」という状態でのご相談も歓迎します。