Template OCRの認識精度を上げるコツ
このステップの内容
Template OCRの認識精度は主に、下記の3つの要素が影響しています。
ここでは、認識精度を上げるためのコツを要素別で紹介します。
・代表サンプル画像
・テンプレートのボックス設定
・読み取り画像
1. 代表サンプル画像
代表サンプル画像は以下の条件を満たすものを推奨します。
サイズ | ・10-1960px以内 ・20MB以 |
解像度 | ・150dpi以上 ※PDFの場合、システムでの画像化の過程で70dpi程度に変更されます |
状態 | ・値を入力していない未記入の現行画像 (読み込む画像に共通する部分のみの画像) ・歪み、欠損のない平面に印刷された画像 |
~値を入力していない未記入の画像例~
2. テンプレートのボックス設定
▼フィールド(Basic / Premium 共通)
枠内のフリー記載の書式を読み取る場合に使用します。
~表の中に設定する場合~
罫線にかぶらないよう、やや内側に設定する
フィールドの一定範囲外側も文字認識をしているため、多少のはみ出しには対応する仕様になっています。
通常は枠のやや内側に設定で問題ありません。
~表の中に設定する場合~
罫線にかぶらないよう、やや内側に設定する
フィールドを枠外に広げることで余計な文字を読み取ったり、枠を文字の一部として認識する場合もあるため、補助的な方法としての利用を推奨します。
~生年月日など日付欄を読み取る場合~
個別に文字を読み取りたい場合は、個別にフィールドを設定する
AIの仕組み上、隣り合う文字もまとめて読み込んだほうがいいと判断する場合がある
ため、数字だけではなく印字側の年月日もセットで認識する可能性があります。
できるだけフィールドを狭くして認識テストを行い調整してください。
うまくいかない場合は、フィールドをまとめて設定することも検討ください。
▼マルチボックス(Premiumのみ)
振込用紙のように、1文字ごとに罫線で囲ってある書式をまとめて読み取ります。
枠に被るか、やや外側を囲うように設定する
▼チェックボックス(Premiumのみ)
チェック形式の入力欄にチェックが入っているかを読み取ります。
~通常タイプ~
想定される記入 | ボックス設定 |
チェック枠に対してできるだけピッタリにセットすると精度が高くなります。
想定される記入 | ボックス設定 |
フィールドを枠外に広げることで余計な文字を読み取ったり、枠を文字の一部として認識する場合もあるため、補助的な方法としての利用を推奨します。
▼その他(Premiumのみ)
サービスモデルPremiumをご利用の場合は、フィールド・マルチボックスにて以下の設定が可能です。
~読み取る文字の種類を指定~
フィールド情報エリアの[⚙]マークで値の形式を設定することができます。
値の形式を「Numeric」に設定すると、読み取り対象が数字のみに限定されます。
電話番号など数字しか入力されないフィールドについては、数字のみに限定することで
より精度が向上します。
~未認識領域を設定~
該当フィールド情報エリアの[未認識指定]で未認識領域を設定することができます。
フィールド内に含まれてしまう帳票上のテキストを認識結果に含めないようにしたい
場合は、該当箇所をマスキングして読み取らないよう設定できます。
3. 読み取り画像
読み取り画像は以下の条件を満たすものを推奨します。
サイズ | ・10-1960px以内
・20MB以 |
解像度 | ・150dpi以上
※PDFの場合、システムでの画像化の過程で70dpi程度に変更されます |
状態 | ・歪み、欠損のない平面に印刷された画像
・傾きは正面に対して±45°の範囲内
※自動的に補正がかかるようになっていますが、±45°を超えると精度が 下がる可能性があります |