Aspose.OCR Таблица в Текст для .NET
ASPOSE.OCR Table to Text для .NET является мощным плагином, который позволяет разработчикам экстрактировать текст из сканированных или фотографируемых таблиц с высокой точностью. Предоставляя передовые алгоритмы машинного обучения и нейронные сети, он выявляет табличные структуры, вытягивает текст на уровне клеток и организует все в поисковые, редактируемые шины или табличных данных.
Инсталляция и установка
Чтобы начать, установите пакет Aspose.OCR Table to Text через NuGet или загрузите сборку с серверов ASPOSE Инсталляция Руководство для детальных шагов.Обеспечивает полную функциональность путем конфигурирования мерного лицензирования, как описано в Лицензирование с учетом объема потребления и документации.
Особенности и функции
Таблица обнаружения и распознавания структуры
- Автоматически выявляет границы таблицы в сканированных или фотографированних изображениях, даже если клетки скручены, вращаются или неравномерно освещены.
- Поддерживает мульти-роу и многосторонние распределения, нестные таблицы и различные размеры клеток.
- Обеспечивает иерархическое представление рядов и клеток для упрощенного послепроцесса.
Экстракция текста клеток
- Он распознает текст внутри каждой клетки с использованием передовых алгоритмов OCR, сохраняя линейные перерывы, капитализацию и цифровое форматирование.
- Управляет множеством языков в одной таблице с конфигурируемыми языковыми приоритетами.
- Корректирует искажения, такие как скважины, низкий контраст или шум изображения для повышения точности.
Таблица реконструкции и экспорта
- Реконструирует обнаруженные таблицы в структуры данных .NET (например, DataTable) или экспортирует их в CSV/TSV форматы.
- Создает редактируемые файлы шины (XLSX), которые могут быть открыты в Excel или других инструментах.
- Сохраняет базовое формирование клеток (равнивание, границы) и экспортные координаты для передовых рабочих потоков.
Поискованный и редактируемый выход
- Создает поисковые текстовые слои в PDF Экспорт, что делает контент таблицы индексируемым.
- Бессмысленно интегрируется с Aspose.Cells для передовых операций с шифром, таких как формулы и графики.
- Допускает введение извлеченного контента в базы данных или низкопроводные трубы обработки.
производительность и масштабируемость
- Оптимизирована для комплексной обработки больших наборов данных с конфигурируемым потоком и управлением памятью.
- Поток данных изображения напрямую к двигателю OCR, минимизируя диск I/O.
- Обеспечивает прогресс звонков и токенов отмены для долгосрочных операций.
продвинутая персонализация
- Регион-оф-интерес (ROI) поддержка для ограничения обнаружения на конкретные области для более быстрой обработки.
- Конфигурируемые лимиты доверия для фильтрации результатов низкой уверенности.
- Хоки для предварительной и послепроцессионной обработки (приспособенные фильтры, алгоритмы отверстия или валидаторы).
Пример: Экстракт текста из сканируемых или фотографированных таблиц
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Общие случаи использования
- Извлечение структурированных данных из финансовых отчетов.
- Конвертирование сканированных форм и приложений в шины.
- Автоматизация заданий ввода данных путем преобразования табличных изображений в редактируемые форматы.
Советы и лучшие практики
- Используйте изображения с не менее 300 ДПИ и хорошим контрастом для лучших результатов.
- Предрасположенные или рассеянные изображения для изоляции табличных областей.
- Загрузите только необходимые языковые пакеты, чтобы уменьшить использование памяти.
- Установите пределы доверия, чтобы сбалансировать точность и запоминание.
- Проверьте перестроенные таблицы по сравнению с ожидаемыми схемами, прежде чем импортировать в базы данных.
Следя за этими рекомендациями и используя возможности распознавания таблицы, Aspose.OCR Table to Text для .NET предоставляет разработчикам надежное решение для конвертации сканированных таблиц в структурированный, редактируемый и поисковый текст.