Aspose.OCRテーブルを.NET用テキストに変換
Aspose.OCR Table to Text for .NET は、開発者が高精度でスキャンまたは撮影されたテーブルからテキストを抽出することを可能にする強力なプラグインです 高度な機械学習アルゴリズムと神経ネットワークを活用して、テープ構造を検出し、細胞レベルのテックスを引っ張り、すべてを検索可能で編集可能なスプレッドシートやテータデータ構成に組織します.
インストール&セットアップ
スタートするには、NuGet を介して Aspose.OCR テキスト パッケージをインストールするか、Aspose サーバーからコレクションをダウンロードします インストール 詳細なステップのためのガイド.完全な機能を可能にするには、測定されたライセンスを設定することによって、上記に記載されているように メータードライセンス 文書化.
特徴と機能
テーブル検出と構造認識
- スキャンまたは撮影された画像でテーブルの境界線を自動的に検出し、細胞が滑り、回転、または不均衡に照らされている場合でも.
- マルチローと多列の配置、ナストテーブル、および異なる細胞サイズをサポートします.
- シンプル化されたプロセッサのためのラインと細胞の階層的な表現を提供します.
セルテキスト抽出
- それぞれの細胞内のテキストを高度なOCRアルゴリズムを使用して認識し、ラインブレイク、資本化、数値形式を保存します.
- 複数の言語を単一のテーブルで操作し、構成可能な舌の優先事項を提供します.
- スケッチ、低コントロール、画像騒音などの歪みを修正し、正確性を高める.
テーブル再建・輸出
- 検出されたテーブルを .NET データ構造(データタブレットなど)に再構築または CSV/TSV フォーマットに輸出します.
- Excel またはその他のツールで開くことができる編集可能なスプレッドシートファイル(XLSX)を生成します.
- 基本的な細胞形式化(調和、境界)を維持し、高度な作業流のための輸出コーディネートを保持します.
検索可能で編集可能な出力
- 検索可能なテキストレイヤーを生成 PDF テーブル内容をインデックスできるようにする.
- Aspose.Cells は、公式やグラフィングなどの先進的なスプレッドシート作業のためのセミュレートで統合されます.
- 抽出されたコンテンツをデータベースまたはダウンストリーム処理パイプに組み込むことを可能にします.
パフォーマンスとスケール性
- 大型データセットのバッチ処理に最適化され、構成可能なトレーニングとメモリ管理を備えています.
- 画像データを OCR エンジンに直接ストリームし、ディスク I/O を最小限にします.
- 長期運行のための進歩通話バックとキャンセルトークンを提供します.
高度なカスタマイズ
- 地域利益(ROI)のサポートは、特定の分野への検出を制限し、より迅速な処理を行う.
- 信頼性の低い結果をフィルタリングするために設定可能な自信の限界.
- プロセッサ前および後(カスタムフィルター、デッキアルゴリズム、または認証)のためのハウス).
例:スキャンまたは撮影テーブルからテキストを抽出する
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
一般的な使用例
- 財務報告から構造化されたデータを抽出する.
- スキャンされたフォームやアプリケーションをスプレッドシートに変換する.
- データ入力タスクを自動化し、テーブル画像を編集可能なフォーマットに変換します.
ヒントと最良の実践
- 少なくとも300DPIの画像を使用し、最良の結果を得ることができます.
- Pre-crop または deskew 画像は、テーブル地域を隔離します.
- メモリの使用を減らすために必要な言語パッケージのみを充電します.
- 信頼の限界を設定して、正確さと記憶をバランス付ける.
- データベースに輸入する前に、予想されるスケジュールに対して再構築されたテーブルを確認します.
これらのガイドラインに従い、テーブル認識機能を活用することで、Aspose.OCR Table to Text for .NET は開発者にスキャンされたタブレットを構造化された、編集可能で検索可能なテキストに変換するための信頼性の高いソリューションを提供します.