ASPOSE.OCR Сканира PDF до текст за .NET
Скениране.OCR Scanned ПДФ to Text for .NET позволява на разработчиците да извличат текст от скенираните PDF файлове или да ги конвертират в напълно търсещи документи. чете всяко оформление и стил, точно определя структурата на текста и таблиците и запазва оригиналните изображения на фона за пълно съхранение на съдържанието.
Инсталация и инсталиране
За да започнете, инсталирайте пакета Aspose.OCR в вашия .NET проект чрез NuGet или от локално изтегления файл инсталация на ръководството.Преди да се обадите на каквито и да било методи на OCR, конфигурирайте измерваната лиценза, както е описано в Размер на лицензията и документацията.
Характеристики и функционалности
Извличане на текст от сканирани PDF файлове
- Прочетете страници, базирани на битмапи и прилагате OCR за извличане на разпознаваем текст.
- Поддържа както еднострани, така и многостранен PDF вход.
- Излага текстови фрагменти заедно с тяхното положение, атрибутите на шрифта и резултатите за доверие.
ОКР точност и запазване на слоеве
- Предоставяте усъвършенствани OCR двигатели, за да максимизирате точността на разпознаването при нискокачествени скани.
- Поддържа потока на документа: параграфи, колони и линии прекъсвания остават съгласувани с изходния дизайн.
- Осигурява подробни метаданни за оформление, така че разработчиците да могат да реконструират или репродуцират съдържание.
Таблица за разпознаване и екстракция
- Автоматично открива табличните структури в скенираните страници.
- Излиза съдържанието на таблицата като структурирани редове и клетки с гранични координати.
- Възможно е да се изтегли надолу към CSV, Excel или персонализирани схеми.
Преобразуване на търсените документи
- Вгражда признатия текст обратно в PDF като невидим слой, което ги прави търсещи без промяна на външния вид.
- Съхранява оригинални скенирани изображения, за да запази визуалната лоялност.
Съхранение на изображението
- Кипс скенира изображенията несъвместими в позата.
- Места признат текст се поставя на върха за безкрайно четене и печат.
Приспособяване на параметрите за разпознаване
- Регулиране на сегментационните режими за единични / мулти-колонни оформления.
- Конфигуриране на бели листа/черна листа на характера за специфично домейно разпознаване.
- Контролна резолюция, DPI и предварително обработващи филтри (отклонение, премахване на шума, задържане на прага).
Многоезична и скрипт подкрепа
- Тя разпознава латински, кирилически, гръцки, китайци, хинди и др.
- Позволява динамично зареждане на езикови пакети.
- APIs ви позволяват да посочите първични и вторични езици за разпознаване на страница.
Управление на ефективността и ресурсите
- Поддържа многострани PDF обработки.
- Async APIs позволява паралелна обработка на трудови товари.
- Осигурява опции за тониране за използване на ленти и буферни размери.
Пример: Извличане на текст от сканирани PDF файлове
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Съвети и най-добри практики
- Препроцесиране на PDF (деск, дескл, праг) за по-добра точност.
- Използвайте анализ на оформлението, за да откриете текст и таблици преди екстракцията.
- Използвайте прагове на доверие за валидиране на критично съдържание.
- Ограничаване на конкурентните двигатели на OCR в работни места, за да се предотврати ограничаването на ресурсите.
- Cache езикови пакети и повторно използване на OCR двигателни примери през няколко страници.
Чрез комбиниране на точността на OCR, табличното откриване и търсенето на PDF генериране, Aspose.OCR Scanned PDF to Text for .NET осигурява пълно решение за цифровизиране и извличане на текст от скенираните PDF файлове, като същевременно запазва оригиналните оформления.