Aspose.PDF文本提取器 for .NET

Aspose.PDF 文本提取器为 .NET 是一个专注的插件,允许开发人员从 PDF 它切断格式和图形元素,提供清洁的文本内容,可以在 .NET 应用程序内索引、分析或转换.

开始使用

安装和设置

安装 Aspose.PDF 通过 NuGet 或直接下载集合.
在提取之前设置测量许可证(参见计量许可 ).

特点与功能

原始文本提取

从每个页面中提取不变的字符流.
保留白空间、线条断裂和隐藏的文本.
有用于索引或大批文本泡沫.

平板文本提取

正常化白空间和线路中断可读性.
加入附属文本运行智慧.
忽略字体、图形和定位.

页面和基于范围的提取

从整个文件或特定页面范围中提取文本.
通过限制范围来减少记忆使用.

基于区域的挖掘

指定直角区域(x、y、宽、高度).
从头条、脚条或列中提取文本.
理想的结构化布局.

文本过滤和清洁

删除控制序列、不可打印的字符和额外的白空间.
可选地将文本从笔记、字段或隐藏层中排除出来.

加密 PDF 支持

通过提供认证来打开密码保护的PDF.
提取API在处理过程中自动解密.

Unicode 和 Encoding

输出在 UTF-8 或指定编码.
支持复杂的脚本,右向左语言和Unicode格利夫.

表现与竞争

基于流的提取量减少记忆足迹.
Thread-safe APIs 允许平行处理多个 PDF.

代码示例:从PDF中提取文本

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

提示和最佳实践

根据需要选择提取模式:原料索引,直径可读性.
限制挖掘到范围或地区,以提高性能.
应用过滤器提前,以简化后处理.
在重新使用安全的PDF时隐藏解密的例子.
Tune thread count 和 buffer 尺寸用于大规模工作流.
在初创公司设置许可证,以避免评估警告.

经常提出的问题

**哪些提取方式支持?**三:原料、平板和基于区域的提取.

**我可以从密码保护的PDF中提取文本吗?**是的,通过提供正确的密码,文本可以安全地提取.

**它是否支持右向左和复杂的脚本?**是的,Unicode和RTL脚本(例如,阿拉伯语,希伯来语)完全支持.

**这个插件与完整的 Aspose.PDF 图书馆有什么不同?**该插件轻量级,仅适用于文本提取,而 Aspose.PDF 提供完整的 PDF 操作 API.

**抽取线是安全的吗?**是的,操作在平行处理的文档级别上是带安全的.