将以下文本翻译为 ZH:Aspose.OCR 用于 .NET 的扫描图像转文本
Aspose.OCR Scanned Image to Text for .NET 允许开发人员从包含大量结构化内容的图像中提取文本 - 扫描合同、协议、书页、文章、报纸等 - 而同时保持布局忠诚度(包括多列流)。 基于可靠的 ASPOSE.
安装和设置
要将 Aspose.OCR 扫描图像添加到 .NET 文本到您的项目中,安装 NuGet 包并设置测量许可:
特点与功能
精确的文本提取
核心 OCR 引擎适用于扫描文档的先进识别算法,分析像素,对内置训练模型的字符形状,并产生 Unicode 文本输出.
结构化文档布局分析
超越字符串文本捕获,插件通过分区图像区域分布结构元素 - 段落,标题,脚和表。 认可的区块保持空间关系,使开发人员能够重建文档流或应用自定义后处理.
多列配置认可
扫描的页面通常使用两个或三个列格式. OCR 发动机自动检测列边界,在自然顺序中阅读它们,并将文本部分重新插入一个单一,正确安排的输出流.
图像预处理和改进
集成的预处理习惯在挑战性扫描中提高了认知成功:
- Skew 检测和自动解锁
- 二元化(适应边界)
- 噪音减少过滤器(盐和胡萝卜,加沙润滑)
- 对比和亮度调整 这些步骤可以被查看或自定义,以适应特定图像质量场景.
语言与性格设置支持
虽然专注于结构化英语文本,但该引擎支持多种语言和字符集相关扫描的法律,学术或技术内容.
可自定义识别设置
Fine-tuning 选项允许开发人员平衡速度与准确性:
- 对性格和词语接受的信任界限
- 页面分区模式(单块、自动、分散文本)
- 分辨率参数可扩展输入图像
- 用户定义词典,以提高域特定的术语的认可
输出格式和数据处理
提取的文本可以作为平坦的 Unicode 行或流到文档. 对于先进的场景,布局数据(边缘框,信任分数)被曝光,以便应用程序可以突出或验证认可的区域.
性能与资源管理
用于大图像集的集合处理,插件:
- 通过流媒体页面减少内存
- 提供非同步识别API,以平行工作负载
- 暴露线数和泡沫尺寸的突变参数
三条安全与货币
所有识别类都是带安全的,允许在多个带或无同步的通话中同时进行OCR任务,而无关紧要的冲突.
平衡许可支持
Aspose.OCR 扫描图像到文本为 .NET 使用相同的测量许可模型,如 ASPOSE 产品.
提示和最佳实践
- 从高品质的扫描(300 DPI 或以上)开始,以最大限度地准确.
- 提前处理图像,以消除噪音和正确的滑板,在喂食到OCR.
- 使用符合您的布局复杂性的页面分区设置.
- 充电只需要语言包;外星模型可以缓慢的识别.
- 允许在处理大堆时无同步识别,以保持UI响应性.
- 监测信任评分,并对关键文件进行边界验证或手动审查.
- 立即使用 OCR 发动机对象,以释放未经管理的资源.
- 跟踪和记录测量器的使用,以避免意想不到的折扣违规.