Aspose.OCR Таблица в Текст для .NET

ASPOSE.OCR Table to Text для .NET является мощным плагином, который позволяет разработчикам экстрактировать текст из сканированных или фотографируемых таблиц с высокой точностью. Предоставляя передовые алгоритмы машинного обучения и нейронные сети, он выявляет табличные структуры, вытягивает текст на уровне клеток и организует все в поисковые, редактируемые шины или табличных данных.

Инсталляция и установка

Чтобы начать, установите пакет Aspose.OCR Table to Text через NuGet или загрузите сборку с серверов ASPOSE Инсталляция Руководство для детальных шагов.Обеспечивает полную функциональность путем конфигурирования мерного лицензирования, как описано в Лицензирование с учетом объема потребления и документации.

Особенности и функции

Таблица обнаружения и распознавания структуры

  • Автоматически выявляет границы таблицы в сканированных или фотографированних изображениях, даже если клетки скручены, вращаются или неравномерно освещены.
  • Поддерживает мульти-роу и многосторонние распределения, нестные таблицы и различные размеры клеток.
  • Обеспечивает иерархическое представление рядов и клеток для упрощенного послепроцесса.

Экстракция текста клеток

  • Он распознает текст внутри каждой клетки с использованием передовых алгоритмов OCR, сохраняя линейные перерывы, капитализацию и цифровое форматирование.
  • Управляет множеством языков в одной таблице с конфигурируемыми языковыми приоритетами.
  • Корректирует искажения, такие как скважины, низкий контраст или шум изображения для повышения точности.

Таблица реконструкции и экспорта

  • Реконструирует обнаруженные таблицы в структуры данных .NET (например, DataTable) или экспортирует их в CSV/TSV форматы.
  • Создает редактируемые файлы шины (XLSX), которые могут быть открыты в Excel или других инструментах.
  • Сохраняет базовое формирование клеток (равнивание, границы) и экспортные координаты для передовых рабочих потоков.

Поискованный и редактируемый выход

  • Создает поисковые текстовые слои в PDF Экспорт, что делает контент таблицы индексируемым.
  • Бессмысленно интегрируется с Aspose.Cells для передовых операций с шифром, таких как формулы и графики.
  • Допускает введение извлеченного контента в базы данных или низкопроводные трубы обработки.

производительность и масштабируемость

  • Оптимизирована для комплексной обработки больших наборов данных с конфигурируемым потоком и управлением памятью.
  • Поток данных изображения напрямую к двигателю OCR, минимизируя диск I/O.
  • Обеспечивает прогресс звонков и токенов отмены для долгосрочных операций.

продвинутая персонализация

  • Регион-оф-интерес (ROI) поддержка для ограничения обнаружения на конкретные области для более быстрой обработки.
  • Конфигурируемые лимиты доверия для фильтрации результатов низкой уверенности.
  • Хоки для предварительной и послепроцессионной обработки (приспособенные фильтры, алгоритмы отверстия или валидаторы).

Пример: Экстракт текста из сканируемых или фотографированных таблиц

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Общие случаи использования

  • Извлечение структурированных данных из финансовых отчетов.
  • Конвертирование сканированных форм и приложений в шины.
  • Автоматизация заданий ввода данных путем преобразования табличных изображений в редактируемые форматы.

Советы и лучшие практики

  • Используйте изображения с не менее 300 ДПИ и хорошим контрастом для лучших результатов.
  • Предрасположенные или рассеянные изображения для изоляции табличных областей.
  • Загрузите только необходимые языковые пакеты, чтобы уменьшить использование памяти.
  • Установите пределы доверия, чтобы сбалансировать точность и запоминание.
  • Проверьте перестроенные таблицы по сравнению с ожидаемыми схемами, прежде чем импортировать в базы данных.

Следя за этими рекомендациями и используя возможности распознавания таблицы, Aspose.OCR Table to Text для .NET предоставляет разработчикам надежное решение для конвертации сканированных таблиц в структурированный, редактируемый и поисковый текст.

 Русский