Aspose.PDFテキスト抽出ツール for .NET
Aspose.PDF Text Extractor for .NET は、開発者が PDF ドキュメントから純粋、原料、または平らなテキストを抽出することを可能にする焦点を当てたプラグインです。
始めに
インストール&セットアップ
- インストール
Aspose.PDF
NuGet を介して、またはダウンロードアセットを直接。 - 抽出前に測定されたライセンスを設定する(参照) メータードライセンス ).
特徴と機能
原文抽出物
- 各ページから変わらないキャラクターストリームを抽出します。
- ホワイトスペース、ラインブレイク、隠されたテキストを保存します。
- インデックスまたは大規模テキストダンプに役立ちます。
フライトテキスト抽出
- ホワイトスペースとラインブレイクを読みやすいように正常化します。
- 関連するテキストが賢く動作します。
- 文字、グラフィック、ポジションを無視する。
ページと範囲に基づく抽出
- 完全な文書または特定のページ範囲からテキストを抽出します。
- メモリの使用量を減らし、範囲を制限します。
地域ベースの抽出
- 直角地域(x、y、幅、高さ)を指定します。
- ヘッド、足、またはコラムからテキストを抽出します。
- 構造化されたレイアウトに最適。
テキストフィルタリング&クリーニング
- コントロールセクション、非印刷文字、および追加のホワイトスペースを削除します。
- オプションで、ノート、フィールド、または隠された層からテキストを排除します。
暗号化されたPDFサポート
- パスワード保護のPDFを開いて、認証を提供します。
- 抽出APIは、処理中に自動的に解読されます。
ユニコードと暗号化
- 出力 UTF-8 または指定された暗号化。
- 複雑なスクリプト、右向き言語、ユニコードグリフをサポートしています。
パフォーマンスと競争
- ストリームベースの抽出は記憶足跡を最小限にします。
- Thread-safe APIs は、複数の PDF の並行処理を可能にします。
コード例:PDFからテキストを抽出する
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
ヒントと最良の実践
- 要望に基づいて抽出モードを選択する:インデックスのための原料、読みやすいための平面。
- パフォーマンスを向上させるために、範囲や地域に抽出を制限します。
- 早めにフィルターを適用して、プロセッサ後を簡素化します。
- セキュアされたPDFを再利用する際に暗号化された例をキャッシュします。
- Tune thread count and buffer sizes for large-scale workflows. 幅広いワークストリームのためのトーンテープとバッファーサイズを数える。
- スタートアップでライセンスを設定して、評価警告を避ける。
よくある質問
**どのような抽出方法がサポートされていますか?**3つ目は、原料、平面、地域に基づく抽出です。
**パスワード保護のPDFからテキストを抽出できますか?**はい、正しいパスワードを提供することで、テキストは安全に抽出することができます。
**右から左に複雑な脚本をサポートしていますか?**はい、ユニコードとRTLスクリプト(例えば、アラビア語、ヘブライ語)は完全にサポートされています。
**このプラグインは、完全な Aspose.PDF ライブラリとはどのように異なりますか?**このプラグインは軽量で、テキスト抽出にのみ最適化され、Aspose.PDFは完全なPDF操作APIを提供します。
- エクストラクションは安全ですか?*はい、操作は平行処理のためのドキュメントレベルでテープセキュアです。