homula
Document AI Agent — 最新マルチモーダルLLM × Agent Skills

AIは今、
手書きを「読む」のではなく、
「理解する」。

homulaのDocument AI Agentは、最新マルチモーダルLLMの文書理解能力を活用し、手書き・スキャン・複雑レイアウトを含む帳票・文書の読み取りから転記・照合・承認フローまでをAIエージェントが自律実行する、エンタープライズ向けエンドツーエンド文書処理サービスです。

「AIに手書きは無理」は、もう過去の話です。請求書・発注書・契約書・手書き申請書・検査帳票など幅広い文書種別に対応。最短2週間でPoC開始。

DOCUMENT AI AGENT PIPELINE

01書類投入
02文書分類
03インテリ
04構造化デ
05業務ルー
06例外検知
07後工程実
08システム

従来OCRは②〜③まで / homulaは②〜⑦をAIエージェントが自律実行

Intelligence

「読む」OCRから、
「理解する」AIへ。

多くの方がまだご存知ないかもしれませんが、最新のマルチモーダルLLMは従来のOCRとは根本的に異なります。文字を「検出」するのではなく、文書の「意味」を理解します。

TRADITIONAL OCR

文字を「検出」する

ピクセルパターンからテキストを抽出する処理。テンプレートに依存し、レイアウト変化や手書きに脆弱。認識した文字列の「意味」は理解しない。

MULTIMODAL LLM

文書を「理解」する

文書全体を視覚的に把握し、レイアウト構造・文脈・意味を同時に処理。手書きの崩し字も周辺情報から補完。「何が書かれているか」だけでなく「何を意味するか」まで推論する。

✍️

手書き文字を「読む」だけでなく「理解する」

手書きの数字・文字を認識するだけでなく、文脈から意味を補完します。「7」と「1」の判別、略字・崩し字の解釈、記入漏れ箇所の推定。従来OCRが「文字認識器」だとすれば、マルチモーダルLLMは「意味理解器」です。

APPLIES TO

手書き申請書点検・検査票現場作業報告書手書き注文票
📐

非定型レイアウトにテンプレート不要

取引先ごとに異なる請求書フォーマット、バラバラな表の列構成、縦横混在のセル結合。LLMは文書の視覚的構造を人間と同様に「読み解き」、テンプレートなしで構造化データを抽出します。

APPLIES TO

多様な取引先請求書古いExcelを印刷した帳票段組みレポート複合フォーム
🔍

「書かれていないこと」も推論する

金額の内税・外税の判断、記載単位(千円・万円)の推定、日付の表記ゆれ(令和/西暦/略記)の統一。文書に明記されていない文脈的情報を、業務ルール(SKILL.md)との照合で正確に補完します。

APPLIES TO

税率判定単位統一日付表記の正規化取引先コード推定
🗂️

複数ページをまたぐ情報を統合する

1件の取引が複数ページにわたる発注書、添付書類と本文を照合する契約書、前後ページの数値を合算する明細帳票。最新LLMの長大なコンテキスト処理能力で、複数ページを一括して理解します。

APPLIES TO

複数ページ契約書添付資料付き稟議複数明細の発注書継続取引の照合

The Problem

「AI OCR」だけでは、
現場の工数は減らない。

読み取り精度の問題は解決しつつあります。残る課題は「読み取った後の処理」です。

01

読み取れても、転記・照合は手作業のまま

AI OCRの精度はすでに実用水準に到達しています。しかし工数の大半は「読み取った後」の転記・突合・例外処理に費やされており、OCRツールだけでは削減できません。

02

帳票の多様性がテンプレートを無力化する

取引先ごとに異なるレイアウト、手書き混在、スキャン品質のばらつき。従来OCRはテンプレート依存のため、帳票種別が増えるほどメンテナンスコストが膨らみます。

03

例外・差異の判断に「人の目」が必要

金額不一致・記載ミス・未登録取引先など、例外発生時の対応が属人化しています。完全自動化の前に必ず「人の確認」が挟まり、処理速度の上限を下げています。

Why Now

なぜ今、これが可能になったのか

マルチモーダルLLMの急速な進化が、文書処理の常識を塗り替えました。homulaは複数のフロンティアモデルを帳票特性・要件に応じて中立な立場で選定・構成します。

読み取り精度

複雑レイアウト・手書きに最高水準の精度

最新マルチモーダルLLMは業界標準ベンチマーク(OmniDocBench)で従来手法を大幅に超える精度を記録。ネスト表・段組み・手書き混在・低品質スキャンにゼロショットで対応します。

コンテキスト処理

100万トークン超の長文書を一括処理

数百ページの契約書・報告書を分割せず一括処理。ページをまたぐ参照・前後の文脈照合・累計金額の整合確認を単一の推論で完結させます。

閉域対応

データを日本国内に閉じるクラウド構成

国内リージョン指定のマネージドAPI経由で利用することで、処理データが日本国内サーバーのみで完結します。「外部に出せない」文書も、セキュリティ要件を満たした形で自動化できます。

モデル選定

帳票特性・要件に応じた中立な最適構成

homulaは特定のLLMベンダーに依存しない中立な設計者として、帳票の種類・セキュリティ要件・処理ボリュームに応じて最適なモデルを選定します。ベンダーロックインを回避しながら最高精度を維持します。

Why homula

なぜhomulaのDocument AI Agentが選ばれるのか

Intelligent Reading

AIは「見るだけ」でなく「理解する」

手書き / 非定型 / 複数ページ / 文脈推論

最新マルチモーダルLLMは人間と同じ方法で文書を解読します。手書き文字の文脈補完、非定型レイアウトの構造理解、複数ページをまたぐ情報の統合、書かれていない文脈の推論。これはOCRの「進化版」ではなく、根本的に異なる処理です。

手書き対応非定型レイアウト長文書処理文脈推論
End-to-End Agent

OCRの先——後工程をAIエージェントが自律実行

転記・照合・承認フローまで一気通貫

従来のOCRツールは「読み取り」で止まります。homulaはn8n / Dify / LangGraph上に構築したAIエージェントが、読み取り後の転記・突合・業務ルール判定・例外通知・ERPへの書き込みまでを自律実行します。人の手が介在するのは例外承認のみ。

n8nDifyLangGraph業務自動化
Agent Skills

業務ルールをSKILL.mdにパッケージ化

帳票の多様性に対応する知識ポータビリティ

取引先ごとのレイアウト差異・業界固有の照合ルール・例外処理の判断基準をAgent Skills(SKILL.md)として定義します。テンプレートメンテナンスから解放され、新規帳票種別への対応もスキル追加で完結します。

Agent SkillsSKILL.md業務知識パッケージ
Security

国内リージョン閉域でデータを守る

「外部に出せない」文書も自動化できる

国内リージョン指定のマネージドAPIを使用することで、文書データが日本国内サーバーのみで処理されます。さらにAgens Controlのゲートウェイ機能でAPI呼び出しログを完全記録、J-SOX監査にも対応します。

国内リージョン閉域Agens ControlJ-SOX対応

Use Cases

印刷物も手書きも、
あらゆる帳票・文書に対応

特に手書きが多い現場帳票・申請書類は、これまで「自動化は難しい」とされてきた領域です。

📄

受発注・請求処理

発注書 / 注文確認書 / 請求書 / 納品書

EFFECT: 転記工数 85% 削減

AGENT FLOW

OCR → 発注データ照合 → ERP自動転記 → 支払承認フロー

✍️

手書き申請・現場帳票

手書き対応

手書き申請書 / 点検票 / 作業報告書 / 出荷指示票

EFFECT: 入力工数 90% 削減

AGENT FLOW

手書きOCR → 文脈補完 → データ正規化 → システム登録

📋

契約書・法務文書

契約書 / NDA / 覚書 / 規約文書

EFFECT: レビュー時間 70% 短縮

AGENT FLOW

OCR → 条項抽出 → リスク判定 → 担当者通知 → 承認WF

🔬

検査・品質帳票

手書き対応

検査報告書 / 品質記録 / 測定データ帳票

EFFECT: データ入力ミス ほぼゼロ

AGENT FLOW

手書き数値OCR → 基準値照合 → 異常アラート → ログ記録

Comparison

従来OCR・LLM単体との違い

比較項目従来OCRツールLLM単体homula Document AI Agent
手書き文字の認識△ 専用学習必要○ 一定対応◎ 文脈補完で高精度業務文書レベルの手書きに対応
非定型レイアウト対応✗ テンプレ必須○ ゼロショット可◎ テンプレ不要スキル追加で新規帳票に対応
複数ページ情報の統合○ 長コンテキスト◎ 一括処理100万トークン超対応
後工程(転記・照合)✗ 対象外△ 単発のみ◎ エージェント自律実行n8n / Dify 連携
業務ルールの適用△ 固定化困難◎ SKILL.md でパッケージ化業務知識の移植可能な実装
閉域・データ主権○ オンプレ可△ 要件次第◎ 国内リージョン閉域データ国内完結
監査ログ・ガバナンス◎ Agens Control5年監査ログ / J-SOX対応

Security

「データを外に出せない」には、
4つの答えがあります。

セキュリティ懸念は一括りにできません。まずお客様の懸念を4類型に整理し、要件に応じた最適な構成を設計します。

01

学習利用制御

入力データがモデル改善に使われる懸念。APIを通じた利用は各社ポリシーで学習データに使用されないため、規約確認で解決できます。

SOLUTION: APIポリシー確認で解決
02

データ保存リージョン

どの国のサーバーに保存されるかの懸念。国内リージョン指定のマネージドAPIを使用することで、データの日本国内完結が可能です。

SOLUTION: 国内リージョン閉域構成
03

完全ローカル化

外部API呼び出し自体を禁止したい懸念。オープンソース系LLMのオンプレミス構成またはVPC閉域網で対応します。

SOLUTION: オンプレLLM / VPC閉域
04

PII・機密データのマスキング

個人情報・機密情報をLLMに渡したくない懸念。プロンプトレイヤーでのPIIマスキング処理とAgens Controlの入力フィルタリングで対応します。

SOLUTION: PIIマスキング + Agens Guard

Agens Control との統合: ゲートウェイ機能によるAPI呼び出しの完全ログ記録・RBAC/ABAC権限管理・5年監査ログ保持でJ-SOX対応を実現します。Agens Control を詳しく見る →

Process

最短2週間で、PoCを開始できます

01Week 1〜2

業務要件ヒアリング

対象帳票のサンプル収集・業務フロー棚卸し・セキュリティ要件の確認。手書き比率・帳票の多様性・処理件数を定量化し、最適な構成の初期方針を決定します。

02Week 2〜3

PoC パイプライン構築

主要帳票3〜5種を対象にエンドツーエンドのPoCパイプラインを構築。読み取り精度・後工程実行率・例外件数を定量化します。

03Week 3〜4

精度チューニング・SKILL.md化

PoC結果をもとに業務ルールをAgent Skills(SKILL.md)に実装。例外パターンの処理ロジックとHuman-in-the-Loopの承認フロー設計を完成させます。

04Month 2+

本番移行・横展開

パイロット部署での本番稼働後、対象帳票種別の拡大と他部署への横展開を支援。Agens Controlでガバナンス体制を整備し、内製化に移行します。

Pricing

PoCから始めて、
成果に応じて拡張する。

小さく始めてROIを確認してから拡大できる段階的な構成を提供しています。費用はすべてお問い合わせください。

Phase 0: PoC スターター

主要帳票3種・2週間

お問い合わせ

Phase 1+2: Agent Skills 開発込み

帳票10種・2〜3ヶ月

お問い合わせ

Phase 3+4: 本番基盤 + Agens Control

全社展開・ガバナンス込み

お問い合わせ

マネージドサービス(Phase 5)

月次レビュー・スキル拡充・運用

月額 お問い合わせ

FAQ

よくある質問

業務文書レベルの手書きであれば対応可能です。最新マルチモーダルLLMは文字認識だけでなく「文脈から意味を補完する」能力を持っており、崩し字・略字・一部判読困難な文字も周辺の情報から推論します。ただし極端に劣悪な品質(薄すぎるインク・強いノイズ等)では精度が低下するケースがあるため、まずサンプル帳票でのPoC検証を推奨します。

対応できます。従来のOCRはテンプレートを取引先ごとに作成・維持する必要がありましたが、マルチモーダルLLMはテンプレートなしで文書の構造を理解します。新規取引先の帳票が増えても、Agent Skills(SKILL.md)を追加するだけで対応できます。

「データを外に出したくない」という懸念は実際には4類型に分解されます。①学習利用の懸念(APIはモデル学習に使用されない)、②保存リージョンの懸念(国内リージョン指定で解決)、③外部API自体を禁止したい(オンプレLLM構成)、④PIIマスキング(プロンプトレイヤーで処理)。どの類型かをまず整理した上で、要件に応じた構成を設計します。

入れ替えは不要です。既存OCRを読み取りエンジンとして維持しつつ、後工程(転記・照合・承認フロー)にAIエージェントを追加する段階的な構成が可能です。既存投資を活かしながら自動化率を引き上げます。

精度100%の保証はどのシステムでも困難です。homulaでは「完全自動化できるケース」と「Human-in-the-Loopが必要な例外ケース」を明確に分離し、例外率・承認工数の定量目標をPoCで設定します。通常、処理件数の90〜95%以上を自動化し、残り5〜10%の例外のみ人が確認する設計を目指します。

主要帳票3〜5種を対象としたPoCは最短2週間で開始できます。費用はお問い合わせください。PoCではエンドツーエンドのパイプライン構築・精度測定・ROI試算まで実施し、本番導入の判断材料をそろえます。

Get Started

まず、帳票サンプルを見せてください。
2週間でPoCを始めます。

帳票の種類・手書き比率・処理件数・現在の課題をヒアリングし、最適な構成とROI試算を無料でご提案します。「自動化できるか半信半疑」という状態でのご相談も歓迎します。