将以下文本翻译为中文:Aspose.OCR 用于 .NET 的扫描 PDF 转文本

ASPOSE.OCR 扫描 PDF to Text for .NET 允许开发人员从扫描的 PDF 文件中提取文本或将其转换为完全可搜索的文档. 它阅读任何布局和风格,准确地定义文字和表格的结构,并保留原始图像在背景下,以便完整的内容保存.

安装和设置

要开始,请通过 NuGet 或从本地下载的文件在您的 .NET 项目中安装 Aspose.OCR 包 安装 指南.在呼叫任何OCR方法之前,设置按中所描述的测量许可 计量许可 文档.

特点与功能

文本从扫描的PDF中提取

  • 阅读基于 bitmap 的页面,并应用 OCR 来提取可识别的文本.
  • 支持单页和多页 PDF 输入.
  • 展示文本碎片以及其位置、字体属性和信任分数.

OCR 准确性和布局保留

  • 提供先进的OCR发动机,以最大限度地提高低质量扫描的识别准确性.
  • 保存文档流:段落、列和线条中断保持一致的源配置.
  • 提供详细的布局数据,以便开发人员可以重建或重新流内容.

表识别和提取

  • 自动检测扫描页面的表结构.
  • 输出表内容作为结构序列和细胞与边缘框坐标.
  • 允许下流出口到 CSV、Excel 或自定义图表.

可搜索文档转换

  • 将已识别的文本重新嵌入到PDF中作为一个不可见的层,使其可搜索,而不会改变外观.
  • 保留原始扫描图像,以保持视觉忠诚度.

背景图像保存

  • Keeps 在背景下扫描图像.
  • 地点认可的文本在顶部为无缝阅读和打印.

可自定义识别参数

  • 调整单列/多列配置的分区模式.
  • 设置字符白名/黑名为域特定的识别.
  • 控制分辨率、DPI 和预处理过滤器(漏洞、噪音移除、边缘化).

多语言和脚本支持

  • 识别拉丁语、西里语言、希腊语,中文、印度语等.
  • 允许语言包的动态加载.
  • APIs 允许您指定每页的初级和二级识别语言.

性能与资源管理

  • 支持多页 PDF 处理.
  • Async APIs 允许对包工作负载进行平行处理.
  • 提供线条使用和泡沫尺寸的折叠选项.

例:从扫描的PDF中提取文本

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

提示和最佳实践

  • 提前处理PDF(折叠、折扣、边界)以提高准确性.
  • 使用配置分析,在提取之前检测文本和表格.
  • 使用信任限制来验证关键内容.
  • 限制在组合工作中竞争对手的OCR发动机,以防止资源混乱.
  • Cache 语言包并在多个页面上重新使用 OCR 引擎示例.

通过将 OCR 准确性、表检测和可搜索的 PDF 生成相结合, Aspose.OCR Scanned PDF to Text for .NET 提供了一个完整的解决方案,以数字化和从扫描 PDF 中提取文本,同时保持原始布局.

 中文