Aspose.PDF文本提取器 for .NET
Aspose.PDF Text Extractor for .NET 是一款专注的插件,允许开发人员从 PDF 文档中提取纯粹、原始或清晰的文本。
开始使用
安装和设置
- 安装
Aspose.PDF
通过 NuGet 或直接下载集合。 - 在提取之前设置测量许可证(参见 计量许可 ).
特点与功能
原始文本提取
- 从每个页面中提取不变的字符流。
- 保留白空间、线条断裂和隐藏的文本。
- 有用于索引或大批文本泡沫。
平板文本提取
- 正常化白空间和线路中断可读性。
- 加入附属文本运行智慧。
- 忽略字体、图形和定位。
页面和基于范围的提取
- 从整个文件或特定页面范围中提取文本。
- 通过限制范围来减少记忆使用。
基于区域的挖掘
- 指定直角区域(x、y、宽、高度)。
- 从头条、脚条或列中提取文本。
- 理想的结构化布局。
文本过滤和清洁
- 删除控制序列、不可打印的字符和额外的白空间。
- 可选地将文本从笔记、字段或隐藏层中排除出来。
加密 PDF 支持
- 通过提供认证来打开密码保护的PDF。
- 提取API在处理过程中自动解密。
Unicode 和 Encoding
- 输出在 UTF-8 或指定编码。
- 支持复杂的脚本,右向左语言和Unicode格利夫。
表现与竞争
- 基于流的提取量减少记忆足迹。
- Thread-safe APIs 允许平行处理多个 PDF。
代码示例:从PDF中提取文本
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
提示和最佳实践
- 根据需要选择提取模式:原料索引,直径可读性。
- 限制挖掘到范围或地区,以提高性能。
- 应用过滤器提前,以简化后处理。
- 在重新使用安全的PDF时隐藏解密的例子。
- Tune thread count 和 buffer 尺寸用于大规模工作流。
- 在初创公司设置许可证,以避免评估警告。
经常提出的问题
**哪些提取方式支持?**三:原料、平板和基于区域的提取。
**我可以从密码保护的PDF中提取文本吗?**是的,通过提供正确的密码,文本可以安全地提取。
**它是否支持右向左和复杂的脚本?**是的,Unicode和RTL脚本(例如,阿拉伯语,希伯来语)完全支持。
**这个插件与完整的 Aspose.PDF 图书馆有什么不同?**该插件轻量级,仅适用于文本提取,而 Aspose.PDF 提供完整的 PDF 操作 API。
**抽取线是安全的吗?**是的,操作在平行处理的文档级别上是带安全的。