Aspose.OCRは、.NET向けのスキャンされた画像からテキストへの変換を行います

Aspose.OCR Scanned Image to Text for .NET は、開発者が構造化されたコンテンツの大量を含む画像からテキストを抽出することを可能にします - スキャンされた契約、合意、本ページ、記事、新聞など - とりあえず、レイアウトの忠誠度を維持します (複数のコラムの流れが含まれています.

インストール&セットアップ

Aspose.OCR Scanned Image to Text for .NET をプロジェクトに追加するには、NuGet パッケージをインストールし、測定されたライセンスを設定してください:

  • NuGet を介してインストールする(詳細なステップをご覧ください): インストール
  • 最初の使用前に測定されたライセンスを可能にする: メータードライセンス インストール後、コードファイルに Aspose.OCR 名称スペースを参照してください.

特徴と機能

正確なテキスト抽出

コア OCR エンジンは、スキャンされたドキュメントのための高度な認識アルゴリズムを適用します. ピクセルを分析し、組み込まれたトレーニングモデルに対してキャラクター形状を識別され、ユニコードテキスト出力を生成します.

構造化ドキュメントレイアウト分析

ラインごとにテキストキャプチャを超えて、プラグインは構造要素(段落、タイトル、足跡、テーブル)を分割して画像の領域をセグメントします。認識されたブロックはスペース関係を維持し、開発者が文書の流れを再構築したり、カスタマイズされたプロセッサを適用することができます.

マルチコラムレイアウト認定

OCR エンジンは自動的に列の境界線を検出し、それらを自然な順序で読み、テキストセグメントを単一で正しく注文された出力ストリームに戻します.

画像処理および改善

統合されたプレプロセッサルーチンは、挑戦的なスキャンでの認識の成功を改善します:

  • スケーブ検出と自動デッキ
  • バイナリ化(適応限度)
  • 騒音減少フィルター(塩とペーパー、ガウシアの柔らかさ)
  • 対照と明るさの調整 これらのステップは、特定の画像品質シナリオに適合するために見直すかカスタマイズすることができます.

言語とキャラクターセットサポート

構造化された英語のテキストに焦点を当てているにもかかわらず、エンジンは複数の言語とスキャンされた法的、学術的または技術的なコンテンツに関連するキャラクターセットをサポートします.

カスタマイズ可能な認識設定

Fine-tuning オプションは、開発者が正確性に対してバランスのスピードを可能にします:

  • 性格と言葉の受け入れに対する信頼の限界
  • ページセグメントモード(シングルブロック、自動、スパーステキスト)
  • 入力画像をスケールするための解像度パラメーター
  • ドメイン特定の用語の認識を向上させるために、ユーザーによって定義された辞書

出力形式とデータ処理

抽出されたテキストは、平らなユニコードラインとしてリリースされるか、文書ファイルにストリーミングすることができます. 高度なシナリオでは、配置メタデータ(ブロンドボックス、信頼スコア)が暴露され、アプリケーションが認められた地域を強調または確認することができます.

パフォーマンスとリソース管理

大型画像セットのバッチ処理のために設計されたプラグイン:

  • ストリーミングページによるメモリ上昇を最小限にする
  • パラレル化作業負荷のための非同期認定APIを提供
  • フレーム数とバッファーサイズのトゥニングパラメーターを表示

トレードセキュリティと通貨

すべての認識クラスはフレームセキュアで、複数のフレンドを通じて同時に OCR タスクを可能にし、または紛争をロックすることなく同期通話を行います.

認定ライセンスサポート

Aspose.OCR Scanned Image to Text for .NET は、Aspose 製品と同じ測定されたライセンスモデルを使用しています.

ヒントと最良の実践

  • 正確さを最大限にするために、高品質のスキャン(300 DPIまたはそれ以上)から始まります.
  • プレプロセス画像は、OCRに入る前に騒音と正しいスカウを除去します.
  • あなたのランキングの複雑さに合致するページセグメント設定を使用します.
  • 必要な言語パッケージのみを充電し、外部モデルは認識を遅らせることができます.
  • 大型バッチを処理する際のアシンクロン認識を可能にし、UI を反応的に維持します.
  • 信頼スコアを監視し、危険な文書に限界ベースの認証または手動レビューを適用します.
  • OCRエンジンのオブジェクトを迅速に利用して、管理されていない資源を解放します.
  • 予期せぬ割合違反を避けるために、トラックとログメーターを使用します.
 日本語