Aspose.OCR Таблиця в текст для .NET
Aspose.OCR Table to Text для .NET є потужним плагіном, який дозволяє розробникам екстрактувати текст з сканованих або зображених таблиць з високою точністю. Використовуючи передові алгоритми машинного навчання та нейронні мережі, він виявляє структури таблиці, витягує текст на клітинному рівні і організовує все в пошукові, редагувальні шини або табличні дані.
Інсталяція та установка
Щоб почати, встановіть пакет Aspose.OCR Table to Text через NuGet або завантажуйте набір з серверів ASPOSE Встановлення Інструкція для детальних кроків.Забезпечити повну функціональність шляхом конфігурації розмірної ліцензії, як описано в Ліцензування за використанням і документації.
Особливості та функції
Виявлення та розпізнавання структури
- Автоматично виявляє межі таблиці в сканованих або фотографій, навіть якщо клітини відкидаються, обертаються або нерівно освітлюються.
- Підтримує багатоповерхові та багатоколонні розташування, знеструмлені таблиці та різноманітні розміри клітини.
- Забезпечує йєрархічне представлення рядків і клітин для спрощеного післяобробки.
Створення Cell Text Extraction
- Розпізнає текст в кожній клітині за допомогою передових алгоритмів OCR, зберігаючи лінійні розриви, капіталізацію та цифровий форматинг.
- Обробляти кілька мов в одній таблиці з налаштуваними мовними пріоритетами.
- Виправляє деформації, такі як скеу, низький контраст або шум зображення, щоб підвищити точність.
Реконструкція та експорт
- Відновлює виявлені таблиці в структури даних .NET (наприклад, DataTable) або експортує їх у формати CSV/TSV.
- Він генерує редагувальні файли шини (XLSX), які можна відкрити в Excel або інших інструментах.
- Зберігає базовий форматинг клітин (алігмент, кордони) і експортні координати для передових робочих потоків.
Пошукова і редагувальна продукція
- Виробництво пошукових текстів в ПДФ Експорт, що робить вміст таблиці індексним.
- Вона безперервно інтегрується з Aspose.Cells для передових операцій, таких як формули і графік.
- Дозволяє вводити витягнутий контент в бази даних або низькопрохідні трубопроводи.
Використання та сканалізація
- Оптимізований для обробки пакетів великих наборів даних з конфігураційним завантаженням та управління пам’яттю.
- Потік даних зображення безпосередньо до двигуна OCR, мінімізуючи диск I/O.
- Забезпечує прогрес зворотних дзвінків і скасування токенів для довгострокових операцій.
Підвищена персоналізація
- Підтримка регіону інтересів (ROI) для обмеження виявлення до конкретних областей для більш швидкого обробки.
- Конфігурируються межі довіри для фільтрації результатів з низьким рівнем впевненості.
- Хоки для до- і після-процесування (пристосовані фільтри, алгоритми розтягування або валідатори).
Приклад: Витяг тексту з сканованих або зображених таблиць
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Звичайні варіанти використання
- Витяг структурованих даних з фінансових звітів.
- Конвертувати скановані форми та додатки в шини.
- Автоматизація завдань введення даних шляхом перетворення табличних зображень у редагувальні формати.
Традиції та найкращі практики
- Використовуйте зображення з мінімум 300 ДПІ і хороший контраст для кращих результатів.
- Попередньо вирощувати або розтягувати зображення для ізоляції столових областей.
- Завантажуйте тільки необхідні мовні пакети для зменшення використання пам’яті.
- Складіть межі довіри, щоб збалансувати точність і пам’ять.
- Валідація реконструйованих таблиць проти очікуваних схем перед імпортуванням в бази даних.
Слідкуючи за цими рекомендаціями та користуючись можливостями розпізнавання таблиці, Aspose.OCR Table to Text for .NET надає розробникам надійне рішення для перетворення сканованих таблиць в структурований, редагувальний і пошуковий текст.