Aspose.OCR Таблиця в текст для .NET

Aspose.OCR Table to Text для .NET є потужним плагіном, який дозволяє розробникам екстрактувати текст з сканованих або зображених таблиць з високою точністю. Використовуючи передові алгоритми машинного навчання та нейронні мережі, він виявляє структури таблиці, витягує текст на клітинному рівні і організовує все в пошукові, редагувальні шини або табличні дані.

Інсталяція та установка

Щоб почати, встановіть пакет Aspose.OCR Table to Text через NuGet або завантажуйте набір з серверів ASPOSE Встановлення Інструкція для детальних кроків.Забезпечити повну функціональність шляхом конфігурації розмірної ліцензії, як описано в Ліцензування за використанням і документації.

Особливості та функції

Виявлення та розпізнавання структури

  • Автоматично виявляє межі таблиці в сканованих або фотографій, навіть якщо клітини відкидаються, обертаються або нерівно освітлюються.
  • Підтримує багатоповерхові та багатоколонні розташування, знеструмлені таблиці та різноманітні розміри клітини.
  • Забезпечує йєрархічне представлення рядків і клітин для спрощеного післяобробки.

Створення Cell Text Extraction

  • Розпізнає текст в кожній клітині за допомогою передових алгоритмів OCR, зберігаючи лінійні розриви, капіталізацію та цифровий форматинг.
  • Обробляти кілька мов в одній таблиці з налаштуваними мовними пріоритетами.
  • Виправляє деформації, такі як скеу, низький контраст або шум зображення, щоб підвищити точність.

Реконструкція та експорт

  • Відновлює виявлені таблиці в структури даних .NET (наприклад, DataTable) або експортує їх у формати CSV/TSV.
  • Він генерує редагувальні файли шини (XLSX), які можна відкрити в Excel або інших інструментах.
  • Зберігає базовий форматинг клітин (алігмент, кордони) і експортні координати для передових робочих потоків.

Пошукова і редагувальна продукція

  • Виробництво пошукових текстів в ПДФ Експорт, що робить вміст таблиці індексним.
  • Вона безперервно інтегрується з Aspose.Cells для передових операцій, таких як формули і графік.
  • Дозволяє вводити витягнутий контент в бази даних або низькопрохідні трубопроводи.

Використання та сканалізація

  • Оптимізований для обробки пакетів великих наборів даних з конфігураційним завантаженням та управління пам’яттю.
  • Потік даних зображення безпосередньо до двигуна OCR, мінімізуючи диск I/O.
  • Забезпечує прогрес зворотних дзвінків і скасування токенів для довгострокових операцій.

Підвищена персоналізація

  • Підтримка регіону інтересів (ROI) для обмеження виявлення до конкретних областей для більш швидкого обробки.
  • Конфігурируються межі довіри для фільтрації результатів з низьким рівнем впевненості.
  • Хоки для до- і після-процесування (пристосовані фільтри, алгоритми розтягування або валідатори).

Приклад: Витяг тексту з сканованих або зображених таблиць

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Звичайні варіанти використання

  • Витяг структурованих даних з фінансових звітів.
  • Конвертувати скановані форми та додатки в шини.
  • Автоматизація завдань введення даних шляхом перетворення табличних зображень у редагувальні формати.

Традиції та найкращі практики

  • Використовуйте зображення з мінімум 300 ДПІ і хороший контраст для кращих результатів.
  • Попередньо вирощувати або розтягувати зображення для ізоляції столових областей.
  • Завантажуйте тільки необхідні мовні пакети для зменшення використання пам’яті.
  • Складіть межі довіри, щоб збалансувати точність і пам’ять.
  • Валідація реконструйованих таблиць проти очікуваних схем перед імпортуванням в бази даних.

Слідкуючи за цими рекомендаціями та користуючись можливостями розпізнавання таблиці, Aspose.OCR Table to Text for .NET надає розробникам надійне рішення для перетворення сканованих таблиць в структурований, редагувальний і пошуковий текст.

 Українська