Aspose.OCR Scanned PDF to Text for .NET

Tải Aspose.OCR Scanned PDF to Text for .NET cho phép các nhà phát triển để rút văn bản từ các tệp PDF được quét hoặc chuyển đổi chúng thành tài liệu có thể tìm kiếm đầy đủ. nó đọc bất kỳ bố trí và phong cách, xác định chính xác cấu trúc của text và bảng, và giữ hình ảnh ban đầu trong nền cho việc bảo tồn nội dung hoàn toàn.

Cài đặt & Setup

Để bắt đầu, hãy cài đặt gói Aspose.OCR vào dự án .NET của bạn thông qua NuGet hoặc từ một tệp được tải xuống địa phương Cài đặt hướng dẫn.Trước khi gọi bất kỳ phương pháp OCR nào, hãy thiết lập giấy phép đo được mô tả trong Giấy phép theo mức sử dụng Tài liệu.

Các tính năng và chức năng

Text Extraction từ Scanned PDFs

Đọc các trang dựa trên bitmap và áp dụng OCR để lấy ra văn bản có thể nhận dạng.
Hỗ trợ cả một trang và nhiều trang nhập PDF.
Hiển thị các mảnh văn bản cùng với vị trí của họ, thuộc tính chữ cái, và điểm tin cậy.

OCR chính xác và Layout Retention

Cung cấp các động cơ OCR tiên tiến để tối đa hóa độ chính xác nhận dạng trên quét chất lượng thấp.
Giữ lưu lượng tài liệu: các đoạn, cột, và rào dòng vẫn tuân thủ với bố trí nguồn.
Nó cung cấp các metadata bố trí chi tiết để các nhà phát triển có thể xây dựng lại hoặc lưu lại nội dung.

Bảng nhận dạng và khai thác

Tự động phát hiện các cấu trúc bảng trong các trang được quét.
Xuất nội dung bảng như các hàng có cấu trúc và các tế bào với tọa độ hộp biên giới.
Khả năng xuất dòng xuống sang CSV, Excel hoặc các chương trình tùy chỉnh.

Chuyển đổi tài liệu tìm kiếm

Nhúng văn bản được công nhận trở lại vào PDF như một lớp không thể nhìn thấy, làm cho chúng có thể tìm kiếm mà không thay đổi ngoại hình.
Giữ hình ảnh được quét ban đầu để duy trì sự trung thành thị giác.

Hình nền bảo tồn

Keeps quét hình ảnh intact trong nền.
Vị trí văn bản được công nhận đặt trên đầu cho việc đọc và in không ngừng.

Các thông số nhận dạng tùy chỉnh

Tùy chỉnh chế độ phân khúc cho các bố trí đơn/multi-column.
Cài đặt danh sách màu trắng/blacklist nhân vật để nhận dạng cụ thể cho miền.
Độ phân giải điều khiển, DPI, và bộ lọc xử lý trước (tải, loại bỏ tiếng ồn, hạn chế).

Hỗ trợ đa ngôn ngữ và script

Nhận ra tiếng Latin, Cyrillic, Hy Lạp, Trung Quốc, Hindi, và nhiều hơn nữa.
Cho phép tải năng động của gói ngôn ngữ.
APIs cho phép bạn xác định ngôn ngữ nhận dạng cơ bản và thứ cấp cho mỗi trang.

Hiệu suất và quản lý nguồn lực

Hỗ trợ xử lý PDF đa trang.
Async APIs cho phép xử lý song song cho tải công việc hàng loạt.
Cung cấp các tùy chọn tuning cho việc sử dụng thread và kích thước buffer.

Ví dụ: Tích xuất văn bản từ các PDF được quét

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Lời khuyên và thực hành tốt nhất

Preprocess PDFs (deskew, despeckle, thang) để cải thiện độ chính xác.
Sử dụng phân tích bố trí để phát hiện văn bản và bảng trước khi khai thác.
Sử dụng ranh giới tin tưởng để xác nhận nội dung quan trọng.
Giới hạn các động cơ OCR cạnh tranh trong các công việc hàng loạt để ngăn chặn sự lạm dụng tài nguyên.
Cache gói ngôn ngữ và tái sử dụng các ví dụ động cơ OCR trên nhiều trang.

Bằng cách kết hợp độ chính xác OCR, phát hiện bảng và tạo PDF có thể tìm kiếm, Aspose.OCR Scanned PDF to Text for .NET cung cấp một giải pháp hoàn chỉnh để số hóa và rút văn bản từ các PDF được quét trong khi duy trì bố trí ban đầu.