将以下文本翻译为中文:Aspose.OCR Table to Text for .NET

Aspose.OCR Table to Text for .NET 是一个强大的插件,允许开发人员以高准确度从扫描或拍摄的表中提取文本。 利用先进的机器学习算法和神经网络,它检测到表格结构,引导细胞级文字,并将一切组织为可搜索、可编辑的分布表或表数据结构.

安装和设置

要开始,请通过 NuGet 安装 Aspose.OCR 表到文本包,或者从 Aspose 服务器下载该集合 安装 详细步骤指南.通过配置测量许可证,如上所述,实现完整的功能 计量许可 文档.

特点与功能

桌面检测和结构识别

  • 它在扫描或拍摄的图像中自动检测到桌面边界,即使细胞被滑动、旋转或不平等地照亮.
  • 支持多层和多列配置,粘贴表和不同细胞大小.
  • 提供序列和细胞的以简化后处理为基础的 hierarchical representation.

细胞文本提取

  • 在每个细胞内识别文本,使用先进的OCR算法,保持线路断裂,资本化和数字格式.
  • 在单一表中处理多种语言,可配置的语言优先事项.
  • 纠正扭曲,如滑动、低对比或图像噪音,以提高准确性.

餐桌重建与出口

  • 重建被发现的表格到 .NET 数据结构(例如,数据表)或将其出口到 CSV/TSV 格式.
  • 创建可编辑的分布表文件(XLSX),可在 Excel 或其他工具中打开.
  • 保留基本细胞格式(调整、边界)和出口协调,以便进行先进的工作流.

可搜索和编辑的输出

  • 创建可搜索的文本层 PDF 出口,使表内容可索引.
  • 与 Aspose.Cells 无缝集成,用于先进的分布式操作,如公式和图表.
  • 允许将提取的内容嵌入到数据库或下流处理管道.

性能与可扩展性

  • 优化为大型数据集的集合处理,可配置的拖动和内存管理.
  • 将图像数据直接传输到 OCR 发动机,减少磁盘 I/O.
  • 提供进展呼叫和取消标志为长期运行操作.

先进的定制

  • 区域利益(ROI)支持限制检测到特定的区域,以便更快的处理.
  • 可设置的信任界限,以过滤低信心结果.
  • 用于预处理和后处理(自定义过滤器、分解算法或验证器).

例:从扫描或拍摄的表中提取文本

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

常见用例

  • 从财务报告中提取结构化数据.
  • 将扫描的表格和应用程序转换为分布表.
  • 通过将图表图像转化为可编辑格式来自动输入数据任务.

提示和最佳实践

  • 使用至少 300 DPI 的图像和良好的对比,以获得最佳结果.
  • 预种植或切割图像以隔离桌面区域.
  • 只加载所需的语言包,以减少记忆使用.
  • 将信任界限调整到准确度和记忆的平衡.
  • 在输入到数据库之前,将重建的表对预期方案进行验证.

通过遵循这些指导方针并利用其表识别能力,Aspose.OCR Table to Text for .NET 为开发人员提供了一个可靠的解决方案,将扫描的表格转化为结构化、可编辑和可搜索的文本.

 中文