Chuyển đổi văn bản: Aspose.OCR Hóa đơn sang Văn bản cho .NET

Aspose.OCR Invoice to Text for .NET là một plugin chuyên biệt được thiết kế để đơn giản hóa việc thu thập văn bản có cấu trúc từ các hóa đơn được quét hoặc chụp.Bằng cách tự động hóa các bước quan trọng – xử lý trước hình ảnh, phân tích bố trí, và OCR – bạn có thể cung cấp dữ liệu kết quả trực tiếp vào các hệ thống kế toán, cơ sở thông tin, hoặc các nền tảng thanh toán mà không cần tái định dạng thủ công.The plug-in phục vụ cùng một cốt lõi OCD chất lượng cao như Asposa.ocR, được tối ưu hóa cho các bố cục hóa tài khoản, bảng và cặp giá trị chính.You will reduce processing time, minimize human error, and gain consistent, accurate results at scale.

Cài đặt & Setup

Thực hiện các bước sau để thêm Aspose.OCR Invoice vào Text for .NET vào dự án của bạn:

Ví dụ: Nhận biết hóa đơn

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize OCR engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("invoice1.png");
input.Add("invoice2.jpg");

// Configure recognition settings
Aspose.OCR.InvoiceRecognitionSettings recognitionSettings = new Aspose.OCR.InvoiceRecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

// Perform invoice recognition
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.RecognizeInvoice(input, recognitionSettings);

foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("invoice_result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("invoice_result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Các tính năng và chức năng

Loại động cơ OCR

  • Mô hình nhận dạng tùy chỉnh cho các hóa đơn in và chụp ảnh.
  • Tolerance cao cho các độ phân giải khác nhau, mức độ tiếng ồn, và góc vỡ.
  • Công nhận nhiều ngôn ngữ và phong cách số trong cùng một tài liệu.

Image Preprocessing & Cải thiện

  • Tự động thả, thắt và lọc nhị phân để cải thiện khả năng đọc.
  • Mức giới hạn thích ứng duy trì các dòng hóa đơn và biên giới bảng.
  • Độ sáng và điều chỉnh đối lập để xử lý các quét dưới hoặc quá tiếp xúc.

Phân tích Layout & Table Detection

  • Tự động xác định tiêu đề, bàn chân, bảng mục dòng, và các khối tổng hợp.
  • Nhận thức các hàng, cột, và ranh giới tế bào, ngay cả khi các đường dẫn là yếu hoặc thiếu.
  • Chiết xuất các bảng mọc (ví dụ, các mục phụ dưới một mục dòng mẹ).

Giá trị cặp Extract

  • Các mẫu có thể được cấu hình cho các tên miền bản đồ (ví dụ, “Mã hóa đơn”, “Total Due”) cho kết quả OCR.
  • Hỗ trợ nhãn năng động – phát hiện sự gần gũi của văn bản thay vì phù hợp với mẫu nghiêm ngặt.
  • Đánh giá độ tin cậy theo lĩnh vực, cho phép bạn lọc hoặc tái chế các mục có niềm tin thấp.

xuất khẩu & tích hợp

  • Các định dạng xuất: văn bản thẳng, JSON, XML, PDF, Word, hoặc HTML.
  • Sự kiện hooks để ngăn chặn các kết quả OCR nguyên liệu trước khi serialization.
  • Hỗ trợ xử lý Batch với các điều khiển đồng bộ cho tải công việc khối lượng cao.

Lời bài hát: Error handling & logging

  • Thông điệp ngoại lệ chi tiết cho các chế độ thất bại phổ biến (ví dụ, định dạng hình ảnh không được hỗ trợ, vấn đề cấp phép).
  • Giao diện log-in tương thích với các khung log .NET phổ biến (Serilog, NLog và log4net).
  • Chính sách rút tiền cho lỗi lầm trong quá trình tệp I/O hoặc phân bổ bộ nhớ.

Lời khuyên và thực hành tốt nhất

  • Độ phân giải hình ảnh đã được xác nhận trước: để có độ chính xác OCR tốt nhất, cung cấp ảnh ở hoặc trên 300 DPI.
  • Sử dụng hình ảnh màu xám hoặc màu sắc - chỉ có các bài nhập nhị phân có thể mất các dòng bảng tốt.
  • Đặt giới hạn sự tự tin tùy thuộc vào chất lượng dữ liệu của bạn; giới限 thấp hơn có thể thu thập nhiều thông tin hơn nhưng có lẽ yêu cầu xác thực theo dòng xuống.
  • Đối với các gói rất lớn, theo dõi sử dụng bộ nhớ và điều chỉnh sự đồng bộ thông qua các tùy chọn xử lý của plugin.
  • Tăng tính năng mẫu giá trị chìa khóa để đóng băng các bố cục hóa đơn dự kiến; cho bố trí không rõ, rơi vào phát hiện bảng chung.
  • Luôn bắt đầu giấy phép đo trước khi đề cập đến bất kỳ phương pháp OCR nào để tránh đánh giá-mode watermarks.

Bằng cách làm theo các hướng dẫn này và tận dụng khả năng tập trung vào hóa đơn của nó, Aspose.OCR Invoice to Text for .NET cho phép bạn xây dựng các đường ống xử lý tài liệu cuối cùng đáng tin cậy – giảm thiểu nỗ lực thủ công và tối đa hóa giao thông.

 Tiếng Việt