将以下文本翻译为中文:Aspose.OCR 用于 .NET 的扫描 PDF 转文本
ASPOSE.OCR 扫描 PDF to Text for .NET 允许开发人员从扫描的 PDF 文件中提取文本或将其转换为完全可搜索的文档. 它阅读任何布局和风格,准确地定义文字和表格的结构,并保留原始图像在背景下,以便完整的内容保存.
安装和设置
要开始,请通过 NuGet 或从本地下载的文件在您的 .NET 项目中安装 Aspose.OCR 包 安装 指南.在呼叫任何OCR方法之前,设置按中所描述的测量许可 计量许可 文档.
特点与功能
文本从扫描的PDF中提取
- 阅读基于 bitmap 的页面,并应用 OCR 来提取可识别的文本.
- 支持单页和多页 PDF 输入.
- 展示文本碎片以及其位置、字体属性和信任分数.
OCR 准确性和布局保留
- 提供先进的OCR发动机,以最大限度地提高低质量扫描的识别准确性.
- 保存文档流:段落、列和线条中断保持一致的源配置.
- 提供详细的布局数据,以便开发人员可以重建或重新流内容.
表识别和提取
- 自动检测扫描页面的表结构.
- 输出表内容作为结构序列和细胞与边缘框坐标.
- 允许下流出口到 CSV、Excel 或自定义图表.
可搜索文档转换
- 将已识别的文本重新嵌入到PDF中作为一个不可见的层,使其可搜索,而不会改变外观.
- 保留原始扫描图像,以保持视觉忠诚度.
背景图像保存
- Keeps 在背景下扫描图像.
- 地点认可的文本在顶部为无缝阅读和打印.
可自定义识别参数
- 调整单列/多列配置的分区模式.
- 设置字符白名/黑名为域特定的识别.
- 控制分辨率、DPI 和预处理过滤器(漏洞、噪音移除、边缘化).
多语言和脚本支持
- 识别拉丁语、西里语言、希腊语,中文、印度语等.
- 允许语言包的动态加载.
- APIs 允许您指定每页的初级和二级识别语言.
性能与资源管理
- 支持多页 PDF 处理.
- Async APIs 允许对包工作负载进行平行处理.
- 提供线条使用和泡沫尺寸的折叠选项.
例:从扫描的PDF中提取文本
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
提示和最佳实践
- 提前处理PDF(折叠、折扣、边界)以提高准确性.
- 使用配置分析,在提取之前检测文本和表格.
- 使用信任限制来验证关键内容.
- 限制在组合工作中竞争对手的OCR发动机,以防止资源混乱.
- Cache 语言包并在多个页面上重新使用 OCR 引擎示例.
通过将 OCR 准确性、表检测和可搜索的 PDF 生成相结合, Aspose.OCR Scanned PDF to Text for .NET 提供了一个完整的解决方案,以数字化和从扫描 PDF 中提取文本,同时保持原始布局.