Aspose.OCR Table to Text cho .NET
Aspose.OCR Table to Text for .NET là một plugin mạnh mẽ cho phép các nhà phát triển để thu thập văn bản từ các bảng quét hoặc chụp với độ chính xác cao. Phát triển các thuật toán học máy tiên tiến và các mạng thần kinh, nó phát hiện các cấu trúc bảng, kéo văn Bản cấp tế bào, và sắp xếp mọi thứ vào các phân vùng có thể tìm kiếm, chỉnh sửa hoặc cấu hình dữ liệu bảng.
Cài đặt & Setup
Để bắt đầu, hãy cài đặt gói Aspose.OCR Table to Text thông qua NuGet hoặc tải xuống bộ sưu tập từ các máy chủ Asposa Cài đặt Hướng dẫn cho các bước chi tiết.Tạo chức năng đầy đủ bằng cách cấu hình giấy phép đo lường như được mô tả trong Giấy phép theo mức sử dụng Tài liệu.
Các tính năng và chức năng
Bảng phát hiện và công nhận cấu trúc
- Tự động phát hiện các ranh giới bảng trong các hình ảnh được quét hoặc chụp, ngay cả khi các tế bào bị trượt, xoay hoặc vẽ không bằng nhau.
- Hỗ trợ các bố trí đa rào và đa cột, bảng mọc, và kích thước tế bào khác nhau.
- Nó cung cấp một đại diện hierarchical của các hàng và tế bào cho đơn giản hóa sau quá trình xử lý.
Thẻ Text Extraction
- Nhận ra văn bản trong mỗi tế bào bằng cách sử dụng các thuật toán OCR tiên tiến, duy trì các đoạn đường, đầu tư và định dạng số.
- Quản lý nhiều ngôn ngữ trong một bảng duy nhất với các ưu tiên ngoại ngữ có thể cấu hình.
- Tùy chỉnh các biến dạng như nhầm lẫn, tương phản thấp, hoặc tiếng ồn hình ảnh để tăng độ chính xác.
Bảng xây dựng và xuất khẩu
- Xây dựng lại các bảng được phát hiện thành các cấu trúc dữ liệu .NET (ví dụ, DataTable) hoặc xuất chúng sang định dạng CSV/TSV.
- Tạo tệp bảng điều khiển chỉnh sửa (XLSX) có thể được mở trong Excel hoặc các công cụ khác.
- Giữ định dạng tế bào cơ bản (tương thích, biên giới) và phối hợp xuất khẩu cho các dòng công việc tiên tiến.
Kết quả tìm kiếm và chỉnh sửa
- Sản xuất các lớp văn bản có thể tìm kiếm trong PDF xuất khẩu, làm cho nội dung bảng indexable.
- Nó tích hợp một cách an toàn với Aspose.Cells cho các hoạt động bảng điều khiển tiên tiến như công thức và biểu đồ.
- Cho phép nhúng nội dung thu được vào cơ sở dữ liệu hoặc đường ống xử lý xuống.
Hiệu suất và Scalability
- Được tối ưu hóa cho việc xử lý hàng loạt các tập dữ liệu lớn với định cấu hình và quản lý bộ nhớ.
- Chuyển dữ liệu hình ảnh trực tiếp đến động cơ OCR, giảm thiểu ổ đĩa I/O.
- Cung cấp các cuộc gọi tiến bộ và token hủy bỏ cho các hoạt động dài hạn.
Customization nâng cao
- Khu vực lợi nhuận (ROI) hỗ trợ để giới hạn phát hiện đến các khu vực cụ thể để xử lý nhanh hơn.
- Các giới hạn tin cậy có thể được thiết lập để lọc kết quả tín dụng thấp.
- Hooks cho việc xử lý trước và sau (các bộ lọc tùy chỉnh, thuật toán trượt hoặc xác nhận).
Ví dụ: Tích xuất văn bản từ bảng quét hoặc chụp ảnh
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Các trường hợp sử dụng chung
- Thu thập dữ liệu có cấu trúc từ báo cáo tài chính.
- Chuyển đổi các biểu mẫu và ứng dụng được quét thành bảng điều khiển.
- Tự động hóa các nhiệm vụ nhập dữ liệu bằng cách chuyển đổi hình ảnh bảng thành định dạng có thể chỉnh sửa.
Lời khuyên và thực hành tốt nhất
- Sử dụng hình ảnh với ít nhất 300 DPI và tương phản tốt cho kết quả tốt nhất.
- Pre-crop hoặc deskew hình ảnh để cô lập các khu vực bảng.
- Chỉ tải các gói ngôn ngữ cần thiết để giảm sử dụng bộ nhớ.
- Đặt giới hạn sự tự tin để cân bằng độ chính xác và ghi nhớ.
- Chứng nhận các bảng được xây dựng lại chống lại các chương trình dự kiến trước khi nhập vào cơ sở dữ liệu.
Bằng cách làm theo các hướng dẫn này và tận dụng khả năng nhận dạng bảng của nó, Aspose.OCR Table to Text for .NET cung cấp cho các nhà phát triển một giải pháp đáng tin cậy để chuyển đổi bảng quét thành văn bản có cấu trúc, có thể chỉnh sửa và tìm kiếm.