Aspose.PDF文本提取器 for .NET

Aspose.PDF Text Extractor for .NET 是一款专注的插件,允许开发人员从 PDF 文档中提取纯粹、原始或清晰的文本。

开始使用

安装和设置

  • 安装 Aspose.PDF 通过 NuGet 或直接下载集合。
  • 在提取之前设置测量许可证(参见 计量许可 ).

特点与功能

原始文本提取

  • 从每个页面中提取不变的字符流。
  • 保留白空间、线条断裂和隐藏的文本。
  • 有用于索引或大批文本泡沫。

平板文本提取

  • 正常化白空间和线路中断可读性。
  • 加入附属文本运行智慧。
  • 忽略字体、图形和定位。

页面和基于范围的提取

  • 从整个文件或特定页面范围中提取文本。
  • 通过限制范围来减少记忆使用。

基于区域的挖掘

  • 指定直角区域(x、y、宽、高度)。
  • 从头条、脚条或列中提取文本。
  • 理想的结构化布局。

文本过滤和清洁

  • 删除控制序列、不可打印的字符和额外的白空间。
  • 可选地将文本从笔记、字段或隐藏层中排除出来。

加密 PDF 支持

  • 通过提供认证来打开密码保护的PDF。
  • 提取API在处理过程中自动解密。

Unicode 和 Encoding

  • 输出在 UTF-8 或指定编码。
  • 支持复杂的脚本,右向左语言和Unicode格利夫。

表现与竞争

  • 基于流的提取量减少记忆足迹。
  • Thread-safe APIs 允许平行处理多个 PDF。

代码示例:从PDF中提取文本

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

提示和最佳实践

  • 根据需要选择提取模式:原料索引,直径可读性。
  • 限制挖掘到范围或地区,以提高性能。
  • 应用过滤器提前,以简化后处理。
  • 在重新使用安全的PDF时隐藏解密的例子。
  • Tune thread count 和 buffer 尺寸用于大规模工作流。
  • 在初创公司设置许可证,以避免评估警告。

经常提出的问题

**哪些提取方式支持?**三:原料、平板和基于区域的提取。

**我可以从密码保护的PDF中提取文本吗?**是的,通过提供正确的密码,文本可以安全地提取。

**它是否支持右向左和复杂的脚本?**是的,Unicode和RTL脚本(例如,阿拉伯语,希伯来语)完全支持。

**这个插件与完整的 Aspose.PDF 图书馆有什么不同?**该插件轻量级,仅适用于文本提取,而 Aspose.PDF 提供完整的 PDF 操作 API。

**抽取线是安全的吗?**是的,操作在平行处理的文档级别上是带安全的。

 中文