Aspose.OCR Сканированный PDF в текст для .NET

Aspose.OCR Сканировано PDF To Text for .NET позволяет разработчикам извлечь текст из сканированных PDF-файлов или конвертировать их в полностью поисковые документы. Он читает любые расположения и стили, точно определяет структуру текста и таблиц, и сохраняет оригинальные изображения в фоне для полного содержания.

Инсталляция и установка

Чтобы начать, установите пакет Aspose.OCR в ваш проект .NET через NuGet или из локально загруженного файла Инсталляция Руководство.Прежде чем вызвать любые методы ОКР, настроить измеренную лицензию, как описано в Лицензирование с учетом объема потребления и документации.

Особенности и функции

Экстракция текста из сканированных PDF

Читает страницы, основанные на битмапе, и применяет ОКР для извлечения распознаваемого текста.
Поддерживает как одностраничный, так и многострановый ввод PDF.
Выставляет фрагменты текста вместе с их позицией, атрибутами шрифта и оценками доверия.

ОКР Точность и сохранение расположения

Предоставляет передовые двигатели OCR, чтобы максимизировать точность распознавания на низкокачественных сканах.
Сохраняет поток документа: параграфи, колонны и перерывы строки сохраняются в соответствии с расположением источника.
Он предоставляет подробные метаданные распределения, чтобы разработчики могли реконструировать или перемещать контент.

Таблица распознавания и экстракции

Автоматически выявляет табличные структуры внутри сканированных страниц.
Выходит содержимое таблицы в структурированных рядах и клетках с граничными координатами.
Возможность экспорта низкого потока в CSV, Excel или персонализированные схемы.

Поискованная конверсия документа

Включает признанный текст обратно в PDF-файлы как невидимый слой, делая их поисковыми без изменения внешнего вида.
Сохраняет оригинальные сканированные изображения для сохранения визуальной верности.

Сохранение фонового изображения

Кипс сканирует изображения неотъемлемыми в фоне.
Места признанного текста на вершине для беспрецедентного чтения и печати.

Персональные параметры распознавания

Регулирование режимов сегментации для односторонних/мультиколонных расчётов.
Настройка белого/черного списка персонажей для доменного распознавания.
Контрольная резолюция, ДПИ и препроцессирующие фильтры (дескав, удаление шума, границы).

Многоязычная и скриптовая поддержка

Рассматривает латинский, кириллический, греческий , китайский , индийский и многое другое.
Способствует динамическому зарядке языковых пакетов.
APIs позволяют определить первичные и вторичные языки распознавания на странице.

Управление производительностью и ресурсами

Поддерживает многостраничную обработку PDF.
Async APIs обеспечивает параллельную обработку рабочих нагрузок.
Обеспечивает варианты тонирования для использования ленты и размеров буфера.

Пример: Извлечение текста из сканированных PDF-файлов

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Советы и лучшие практики

Препроцессуальные PDF-файлы (дескев, дескел, лимит) для повышенной точности.
Используйте анализ расположения, чтобы обнаружить текст и таблицы перед экстракцией.
Применить лимиты доверия для подтверждения критического контента.
Ограничение конкурентных двигателей ОКР на рабочих местах, чтобы предотвратить сдерживание ресурсов.
Качевые языковые пакеты и повторное использование OCR-моторных примеров на нескольких страницах.

Сочетая точность OCR, таблицу обнаружения и поисковую генерацию PDF, Aspose.OCR Scanned PDF to Text for .NET обеспечивает полное решение для цифровизации и извлечения текста из сканированных PDF при сохранении оригинальных расчётов.