Aspose.OCR Таблиця в текст для .NET

Aspose.OCR Table to Text для .NET є потужним плагіном, який дозволяє розробникам екстрактувати текст з сканованих або зображених таблиць з високою точністю. Використовуючи передові алгоритми машинного навчання та нейронні мережі, він виявляє структури таблиці, витягує текст на клітинному рівні і організовує все в пошукові, редагувальні шини або табличні дані.

Інсталяція та установка

Щоб почати, встановіть пакет Aspose.OCR Table to Text через NuGet або завантажуйте набір з серверів ASPOSE Встановлення Інструкція для детальних кроків.Забезпечити повну функціональність шляхом конфігурації розмірної ліцензії, як описано в Ліцензування за використанням і документації.

Особливості та функції

Виявлення та розпізнавання структури

Автоматично виявляє межі таблиці в сканованих або фотографій, навіть якщо клітини відкидаються, обертаються або нерівно освітлюються.
Підтримує багатоповерхові та багатоколонні розташування, знеструмлені таблиці та різноманітні розміри клітини.
Забезпечує йєрархічне представлення рядків і клітин для спрощеного післяобробки.

Створення Cell Text Extraction

Розпізнає текст в кожній клітині за допомогою передових алгоритмів OCR, зберігаючи лінійні розриви, капіталізацію та цифровий форматинг.
Обробляти кілька мов в одній таблиці з налаштуваними мовними пріоритетами.
Виправляє деформації, такі як скеу, низький контраст або шум зображення, щоб підвищити точність.

Реконструкція та експорт

Відновлює виявлені таблиці в структури даних .NET (наприклад, DataTable) або експортує їх у формати CSV/TSV.
Він генерує редагувальні файли шини (XLSX), які можна відкрити в Excel або інших інструментах.
Зберігає базовий форматинг клітин (алігмент, кордони) і експортні координати для передових робочих потоків.

Пошукова і редагувальна продукція

Виробництво пошукових текстів в ПДФ Експорт, що робить вміст таблиці індексним.
Вона безперервно інтегрується з Aspose.Cells для передових операцій, таких як формули і графік.
Дозволяє вводити витягнутий контент в бази даних або низькопрохідні трубопроводи.

Використання та сканалізація

Оптимізований для обробки пакетів великих наборів даних з конфігураційним завантаженням та управління пам’яттю.
Потік даних зображення безпосередньо до двигуна OCR, мінімізуючи диск I/O.
Забезпечує прогрес зворотних дзвінків і скасування токенів для довгострокових операцій.

Підвищена персоналізація

Підтримка регіону інтересів (ROI) для обмеження виявлення до конкретних областей для більш швидкого обробки.
Конфігурируються межі довіри для фільтрації результатів з низьким рівнем впевненості.
Хоки для до- і після-процесування (пристосовані фільтри, алгоритми розтягування або валідатори).

Приклад: Витяг тексту з сканованих або зображених таблиць

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Звичайні варіанти використання

Витяг структурованих даних з фінансових звітів.
Конвертувати скановані форми та додатки в шини.
Автоматизація завдань введення даних шляхом перетворення табличних зображень у редагувальні формати.

Традиції та найкращі практики

Використовуйте зображення з мінімум 300 ДПІ і хороший контраст для кращих результатів.
Попередньо вирощувати або розтягувати зображення для ізоляції столових областей.
Завантажуйте тільки необхідні мовні пакети для зменшення використання пам’яті.
Складіть межі довіри, щоб збалансувати точність і пам’ять.
Валідація реконструйованих таблиць проти очікуваних схем перед імпортуванням в бази даних.

Слідкуючи за цими рекомендаціями та користуючись можливостями розпізнавання таблиці, Aspose.OCR Table to Text for .NET надає розробникам надійне рішення для перетворення сканованих таблиць в структурований, редагувальний і пошуковий текст.