将以下文本翻译为 ZH:Aspose.OCR 用于 .NET 的扫描图像转文本

Aspose.OCR Scanned Image to Text for .NET 允许开发人员从包含大量结构化内容的图像中提取文本 - 扫描合同、协议、书页、文章、报纸等 - 而同时保持布局忠诚度(包括多列流)。 基于可靠的 ASPOSE.

安装和设置

要将 Aspose.OCR 扫描图像添加到 .NET 文本到您的项目中,安装 NuGet 包并设置测量许可:

  • 通过 NuGet 安装(参见详细步骤): 安装
  • 允许在第一次使用前进行测量许可: 计量许可 没有其他依赖要求. 安装后,只需在代码文件中引用 Aspose.OCR 名称空间.

特点与功能

精确的文本提取

核心 OCR 引擎适用于扫描文档的先进识别算法,分析像素,对内置训练模型的字符形状,并产生 Unicode 文本输出.

结构化文档布局分析

超越字符串文本捕获,插件通过分区图像区域分布结构元素 - 段落,标题,脚和表。 认可的区块保持空间关系,使开发人员能够重建文档流或应用自定义后处理.

多列配置认可

扫描的页面通常使用两个或三个列格式. OCR 发动机自动检测列边界,在自然顺序中阅读它们,并将文本部分重新插入一个单一,正确安排的输出流.

图像预处理和改进

集成的预处理习惯在挑战性扫描中提高了认知成功:

  • Skew 检测和自动解锁
  • 二元化(适应边界)
  • 噪音减少过滤器(盐和胡萝卜,加沙润滑)
  • 对比和亮度调整 这些步骤可以被查看或自定义,以适应特定图像质量场景.

语言与性格设置支持

虽然专注于结构化英语文本,但该引擎支持多种语言和字符集相关扫描的法律,学术或技术内容.

可自定义识别设置

Fine-tuning 选项允许开发人员平衡速度与准确性:

  • 对性格和词语接受的信任界限
  • 页面分区模式(单块、自动、分散文本)
  • 分辨率参数可扩展输入图像
  • 用户定义词典,以提高域特定的术语的认可

输出格式和数据处理

提取的文本可以作为平坦的 Unicode 行或流到文档. 对于先进的场景,布局数据(边缘框,信任分数)被曝光,以便应用程序可以突出或验证认可的区域.

性能与资源管理

用于大图像集的集合处理,插件:

  • 通过流媒体页面减少内存
  • 提供非同步识别API,以平行工作负载
  • 暴露线数和泡沫尺寸的突变参数

三条安全与货币

所有识别类都是带安全的,允许在多个带或无同步的通话中同时进行OCR任务,而无关紧要的冲突.

平衡许可支持

Aspose.OCR 扫描图像到文本为 .NET 使用相同的测量许可模型,如 ASPOSE 产品.

提示和最佳实践

  • 从高品质的扫描(300 DPI 或以上)开始,以最大限度地准确.
  • 提前处理图像,以消除噪音和正确的滑板,在喂食到OCR.
  • 使用符合您的布局复杂性的页面分区设置.
  • 充电只需要语言包;外星模型可以缓慢的识别.
  • 允许在处理大堆时无同步识别,以保持UI响应性.
  • 监测信任评分,并对关键文件进行边界验证或手动审查.
  • 立即使用 OCR 发动机对象,以释放未经管理的资源.
  • 跟踪和记录测量器的使用,以避免意想不到的折扣违规.
 中文