Aspose.OCR Сканированный PDF в текст для .NET
ASPOSE.OCR Сканировано PDF To Text for .NET позволяет разработчикам извлечь текст из сканированных PDF-файлов или конвертировать их в полностью поисковые документы. Он читает любые расположения и стили, точно определяет структуру текста и таблиц, и сохраняет оригинальные изображения в фоне для полного содержания.
Инсталляция и установка
Чтобы начать, установите пакет Aspose.OCR в ваш проект .NET через NuGet или из локально загруженного файла Инсталляция Руководство.Прежде чем вызвать любые методы ОКР, настроить измеренную лицензию, как описано в Лицензирование с учетом объема потребления и документации.
Особенности и функции
Экстракция текста из сканированных PDF
- Читает страницы, основанные на битмапе, и применяет ОКР для извлечения распознаваемого текста.
- Поддерживает как одностраничный, так и многострановый ввод PDF.
- Выставляет фрагменты текста вместе с их позицией, атрибутами шрифта и оценками доверия.
ОКР Точность и сохранение расположения
- Предоставляет передовые двигатели OCR, чтобы максимизировать точность распознавания на низкокачественных сканах.
- Сохраняет поток документа: параграфи, колонны и перерывы строки сохраняются в соответствии с расположением источника.
- Он предоставляет подробные метаданные распределения, чтобы разработчики могли реконструировать или перемещать контент.
Таблица распознавания и экстракции
- Автоматически выявляет табличные структуры внутри сканированных страниц.
- Выходит содержимое таблицы в структурированных рядах и клетках с граничными координатами.
- Возможность экспорта низкого потока в CSV, Excel или персонализированные схемы.
Поискованная конверсия документа
- Включает признанный текст обратно в PDF-файлы как невидимый слой, делая их поисковыми без изменения внешнего вида.
- Сохраняет оригинальные сканированные изображения для сохранения визуальной верности.
Сохранение фонового изображения
- Кипс сканирует изображения неотъемлемыми в фоне.
- Места признанного текста на вершине для беспрецедентного чтения и печати.
Персональные параметры распознавания
- Регулирование режимов сегментации для односторонних/мультиколонных расчётов.
- Настройка белого/черного списка персонажей для доменного распознавания.
- Контрольная резолюция, ДПИ и препроцессирующие фильтры (дескав, удаление шума, границы).
Многоязычная и скриптовая поддержка
- Рассматривает латинский, кириллический, греческий , китайский , индийский и многое другое.
- Способствует динамическому зарядке языковых пакетов.
- APIs позволяют определить первичные и вторичные языки распознавания на странице.
Управление производительностью и ресурсами
- Поддерживает многостраничную обработку PDF.
- Async APIs обеспечивает параллельную обработку рабочих нагрузок.
- Обеспечивает варианты тонирования для использования ленты и размеров буфера.
Пример: Извлечение текста из сканированных PDF-файлов
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Советы и лучшие практики
- Препроцессуальные PDF-файлы (дескев, дескел, лимит) для повышенной точности.
- Используйте анализ расположения, чтобы обнаружить текст и таблицы перед экстракцией.
- Применить лимиты доверия для подтверждения критического контента.
- Ограничение конкурентных двигателей ОКР на рабочих местах, чтобы предотвратить сдерживание ресурсов.
- Качевые языковые пакеты и повторное использование OCR-моторных примеров на нескольких страницах.
Сочетая точность OCR, таблицу обнаружения и поисковую генерацию PDF, Aspose.OCR Scanned PDF to Text for .NET обеспечивает полное решение для цифровизации и извлечения текста из сканированных PDF при сохранении оригинальных расчётов.