Aspose.OCR Сканированный PDF в текст для .NET

ASPOSE.OCR Сканировано PDF To Text for .NET позволяет разработчикам извлечь текст из сканированных PDF-файлов или конвертировать их в полностью поисковые документы. Он читает любые расположения и стили, точно определяет структуру текста и таблиц, и сохраняет оригинальные изображения в фоне для полного содержания.

Инсталляция и установка

Чтобы начать, установите пакет Aspose.OCR в ваш проект .NET через NuGet или из локально загруженного файла Инсталляция Руководство.Прежде чем вызвать любые методы ОКР, настроить измеренную лицензию, как описано в Лицензирование с учетом объема потребления и документации.

Особенности и функции

Экстракция текста из сканированных PDF

  • Читает страницы, основанные на битмапе, и применяет ОКР для извлечения распознаваемого текста.
  • Поддерживает как одностраничный, так и многострановый ввод PDF.
  • Выставляет фрагменты текста вместе с их позицией, атрибутами шрифта и оценками доверия.

ОКР Точность и сохранение расположения

  • Предоставляет передовые двигатели OCR, чтобы максимизировать точность распознавания на низкокачественных сканах.
  • Сохраняет поток документа: параграфи, колонны и перерывы строки сохраняются в соответствии с расположением источника.
  • Он предоставляет подробные метаданные распределения, чтобы разработчики могли реконструировать или перемещать контент.

Таблица распознавания и экстракции

  • Автоматически выявляет табличные структуры внутри сканированных страниц.
  • Выходит содержимое таблицы в структурированных рядах и клетках с граничными координатами.
  • Возможность экспорта низкого потока в CSV, Excel или персонализированные схемы.

Поискованная конверсия документа

  • Включает признанный текст обратно в PDF-файлы как невидимый слой, делая их поисковыми без изменения внешнего вида.
  • Сохраняет оригинальные сканированные изображения для сохранения визуальной верности.

Сохранение фонового изображения

  • Кипс сканирует изображения неотъемлемыми в фоне.
  • Места признанного текста на вершине для беспрецедентного чтения и печати.

Персональные параметры распознавания

  • Регулирование режимов сегментации для односторонних/мультиколонных расчётов.
  • Настройка белого/черного списка персонажей для доменного распознавания.
  • Контрольная резолюция, ДПИ и препроцессирующие фильтры (дескав, удаление шума, границы).

Многоязычная и скриптовая поддержка

  • Рассматривает латинский, кириллический, греческий , китайский , индийский и многое другое.
  • Способствует динамическому зарядке языковых пакетов.
  • APIs позволяют определить первичные и вторичные языки распознавания на странице.

Управление производительностью и ресурсами

  • Поддерживает многостраничную обработку PDF.
  • Async APIs обеспечивает параллельную обработку рабочих нагрузок.
  • Обеспечивает варианты тонирования для использования ленты и размеров буфера.

Пример: Извлечение текста из сканированных PDF-файлов

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Советы и лучшие практики

  • Препроцессуальные PDF-файлы (дескев, дескел, лимит) для повышенной точности.
  • Используйте анализ расположения, чтобы обнаружить текст и таблицы перед экстракцией.
  • Применить лимиты доверия для подтверждения критического контента.
  • Ограничение конкурентных двигателей ОКР на рабочих местах, чтобы предотвратить сдерживание ресурсов.
  • Качевые языковые пакеты и повторное использование OCR-моторных примеров на нескольких страницах.

Сочетая точность OCR, таблицу обнаружения и поисковую генерацию PDF, Aspose.OCR Scanned PDF to Text for .NET обеспечивает полное решение для цифровизации и извлечения текста из сканированных PDF при сохранении оригинальных расчётов.

 Русский