Aspose.OCRは、.NET向けのスキャンされたPDFをテキストに変換します
ASPOSE.OCR スキャン PDF to Text for .NET では、開発者がスキャンされた PDF ファイルからテキストを抽出するか、完全に検索可能なドキュメントに変換することを可能にします. それは、あらゆるレイアウトとスタイルを読み、文字とテーブルの構造を正確に定義し、コンテンツの完全な保存のために背景にオリジナルの画像を保存します.
インストール&セットアップ
開始するには、NuGet を介して .NET プロジェクトに Aspose.OCR パッケージをインストールするか、またはローカルでダウンロードされたファイルから インストール ガイド.OCR 方法を呼び出す前に、表記に記載されているように測定されたライセンスを設定します メータードライセンス 文書化.
特徴と機能
スキャンされたPDFからテキスト抽出
- ビットマップベースのページを読み、OKRを適用して認識可能なテキストを抽出します.
- シングルページと複数のページのPDF入力をサポートします.
- テキストフラグメントとその位置、文字属性、信頼スコアを展示します.
OCR 正確性とレイアウト維持
- 高度なOCRエンジンを搭載して、低品質のスキャンで認識の正確さを最大限にします.
- 文書の流れを維持する:段落、列、ラインの断片は、ソースの配置と一貫しています.
- 詳細な配置メタデータを提供し、開発者がコンテンツを再構築または再流すことができます.
テーブル認識と抽出
- スキャンされたページ内のテーブル構造を自動的に検出します.
- テーブルのコンテンツを構造化された行と結合ボックスのコーディネートを持つ細胞として出します.
- CSV、Excel、またはカスタムスケジュールへのダウンストリームエクスポートを可能にします.
検索可能なドキュメント変換
- 認識されたテキストを、見えない層としてPDFに戻し、外観を変えることなく検索できるようにします.
- オリジナルのスキャン画像を保存し、視覚的忠誠度を維持します.
背景画像保存
- キーは、背景に不透明な画像をスキャンします.
- 認められたテキストの場所は、読み書きと印刷のためのトップに置かれています.
カスタマイズ可能な認識パラメーター
- シングル/マルチコラムレイアウトの分割モードを調整します.
- ドメイン特定の認識のためにキャラクターホワイトリスト/ブラックリストを設定します.
- コントロール解像度、DPI、およびプレプロセッサフィルター(デスク、騒音除去、範囲制限).
多言語とスクリプトサポート
- ラテン語、キリリ語の、ギリシャ、中国、ヒンディー、その他を認識する.
- 言語パッケージのダイナミック充電を可能にします.
- APIs では、ページごとに初期および次期認定言語を指定できます.
パフォーマンスとリソース管理
- 複数のページのPDF処理をサポートします.
- Async APIsは、バッチワークロードのパラレル処理を可能にします.
- テープ使用およびバッファーサイズのためのトゥニングオプションを提供します.
例:スキャンされたPDFからテキストを抽出する
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
ヒントと最良の実践
- プレプロセスPDF(デスク、デスケル、限界)により正確性が向上します.
- レイアウト分析を使用して、抽出前にテキストとテーブルを検出します.
- 重要なコンテンツを確認するために信頼の限界を適用します.
- バッチワークにおける競争するOCRエンジンを制限し、資源の混乱を防ぐ.
- Cache 言語パッケージと OCR エンジン インスタンスを複数のページで再利用します.
OCRの正確性、テーブル検出、および検索可能なPDFの生成を組み合わせた Aspose.OCR Scanned PDF to Text for .NET は、オリジナルのレイアウトを保存しながら、スキャンされたPDFからテキストをデジタル化し抽出するための完全なソリューションを提供します.