Aspose.OCR Сканира PDF до текст за .NET

Скениране.OCR Scanned ПДФ to Text for .NET позволява на разработчиците да извличат текст от скенираните PDF файлове или да ги конвертират в напълно търсещи документи. чете всяко оформление и стил, точно определя структурата на текста и таблиците и запазва оригиналните изображения на фона за пълно съхранение на съдържанието.

Инсталация и инсталиране

За да започнете, инсталирайте пакета Aspose.OCR в вашия .NET проект чрез NuGet или от локално изтегления файл инсталация на ръководството.Преди да се обадите на каквито и да било методи на OCR, конфигурирайте измерваната лиценза, както е описано в Размер на лицензията и документацията.

Характеристики и функционалности

Извличане на текст от сканирани PDF файлове

Прочетете страници, базирани на битмапи и прилагате OCR за извличане на разпознаваем текст.
Поддържа както еднострани, така и многостранен PDF вход.
Излага текстови фрагменти заедно с тяхното положение, атрибутите на шрифта и резултатите за доверие.

ОКР точност и запазване на слоеве

Предоставяте усъвършенствани OCR двигатели, за да максимизирате точността на разпознаването при нискокачествени скани.
Поддържа потока на документа: параграфи, колони и линии прекъсвания остават съгласувани с изходния дизайн.
Осигурява подробни метаданни за оформление, така че разработчиците да могат да реконструират или репродуцират съдържание.

Таблица за разпознаване и екстракция

Автоматично открива табличните структури в скенираните страници.
Излиза съдържанието на таблицата като структурирани редове и клетки с гранични координати.
Възможно е да се изтегли надолу към CSV, Excel или персонализирани схеми.

Преобразуване на търсените документи

Вгражда признатия текст обратно в PDF като невидим слой, което ги прави търсещи без промяна на външния вид.
Съхранява оригинални скенирани изображения, за да запази визуалната лоялност.

Съхранение на изображението

Кипс скенира изображенията несъвместими в позата.
Места признат текст се поставя на върха за безкрайно четене и печат.

Приспособяване на параметрите за разпознаване

Регулиране на сегментационните режими за единични / мулти-колонни оформления.
Конфигуриране на бели листа/черна листа на характера за специфично домейно разпознаване.
Контролна резолюция, DPI и предварително обработващи филтри (отклонение, премахване на шума, задържане на прага).

Многоезична и скрипт подкрепа

Тя разпознава латински, кирилически, гръцки, китайци, хинди и др.
Позволява динамично зареждане на езикови пакети.
APIs ви позволяват да посочите първични и вторични езици за разпознаване на страница.

Управление на ефективността и ресурсите

Поддържа многострани PDF обработки.
Async APIs позволява паралелна обработка на трудови товари.
Осигурява опции за тониране за използване на ленти и буферни размери.

Пример: Извличане на текст от сканирани PDF файлове

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Съвети и най-добри практики

Препроцесиране на PDF (деск, дескл, праг) за по-добра точност.
Използвайте анализ на оформлението, за да откриете текст и таблици преди екстракцията.
Използвайте прагове на доверие за валидиране на критично съдържание.
Ограничаване на конкурентните двигатели на OCR в работни места, за да се предотврати ограничаването на ресурсите.
Cache езикови пакети и повторно използване на OCR двигателни примери през няколко страници.

Чрез комбиниране на точността на OCR, табличното откриване и търсенето на PDF генериране, Aspose.OCR Scanned PDF to Text for .NET осигурява пълно решение за цифровизиране и извличане на текст от скенираните PDF файлове, като същевременно запазва оригиналните оформления.