将以下文本翻译为中文：Aspose.OCR 用于 .NET 的扫描 PDF 转文本

Aspose.OCR 扫描 PDF to Text for .NET 允许开发人员从扫描的 PDF 文件中提取文本或将其转换为完全可搜索的文档. 它阅读任何布局和风格,准确地定义文字和表格的结构,并保留原始图像在背景下,以便完整的内容保存.

安装和设置

要开始,请通过 NuGet 或从本地下载的文件在您的 .NET 项目中安装 Aspose.OCR 包安装指南.在呼叫任何OCR方法之前,设置按中所描述的测量许可计量许可文档.

特点与功能

文本从扫描的PDF中提取

阅读基于 bitmap 的页面,并应用 OCR 来提取可识别的文本.
支持单页和多页 PDF 输入.
展示文本碎片以及其位置、字体属性和信任分数.

OCR 准确性和布局保留

提供先进的OCR发动机,以最大限度地提高低质量扫描的识别准确性.
保存文档流:段落、列和线条中断保持一致的源配置.
提供详细的布局数据,以便开发人员可以重建或重新流内容.

表识别和提取

自动检测扫描页面的表结构.
输出表内容作为结构序列和细胞与边缘框坐标.
允许下流出口到 CSV、Excel 或自定义图表.

可搜索文档转换

将已识别的文本重新嵌入到PDF中作为一个不可见的层,使其可搜索,而不会改变外观.
保留原始扫描图像,以保持视觉忠诚度.

背景图像保存

Keeps 在背景下扫描图像.
地点认可的文本在顶部为无缝阅读和打印.

可自定义识别参数

调整单列/多列配置的分区模式.
设置字符白名/黑名为域特定的识别.
控制分辨率、DPI 和预处理过滤器(漏洞、噪音移除、边缘化).

多语言和脚本支持

识别拉丁语、西里语言、希腊语,中文、印度语等.
允许语言包的动态加载.
APIs 允许您指定每页的初级和二级识别语言.

性能与资源管理

支持多页 PDF 处理.
Async APIs 允许对包工作负载进行平行处理.
提供线条使用和泡沫尺寸的折叠选项.

例:从扫描的PDF中提取文本

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

提示和最佳实践

提前处理PDF(折叠、折扣、边界)以提高准确性.
使用配置分析,在提取之前检测文本和表格.
使用信任限制来验证关键内容.
限制在组合工作中竞争对手的OCR发动机,以防止资源混乱.
Cache 语言包并在多个页面上重新使用 OCR 引擎示例.

通过将 OCR 准确性、表检测和可搜索的 PDF 生成相结合, Aspose.OCR Scanned PDF to Text for .NET 提供了一个完整的解决方案,以数字化和从扫描 PDF 中提取文本,同时保持原始布局.