Aspose.OCR Скенирао ПДФ у текст за .NET

Апсос.ОКР Скениран ПДФ Text for .NET омогућава програмерима да извуку текст из скенираних ПДФ датотека или их конвертују у потпуно претраживајуће документе. чита било који распоред и стил, тачно дефинише структуру текста и табела, и чува оригиналне слике у позадини за потпуну задржавање садржаја.

Инсталација и подешавање

Да бисте почели, инсталирајте пакету Aspose.OCR у ваш .NET пројекат путем NuGet или из локално преузетог датотеке Инсталација Упутство.Пре него што позовете било какве ОЦР методе, конфигуришете мерене лиценце као што је описано у Метеран лиценцирање То је документација.

Карактеристике и функције

Извлачење текста из скенираних ПДФ-а

Чита странице засноване на битмапи и примењује ОЦР за извлачење препознатљивог текста.
Подржава и једностране и мултистрани ПДФ улаз.
Излага текстуалне фрагменте заједно са њиховим положајем, атрибутима шрифта и резултатима поверења.

OCR прецизност и задржавање распореда

Достави напредне ОЦР моторе како би се максимизирала прецизност препознавања на ниским квалитетима скенирања.
Сачува ток докумената: параграфи, колоне и прекиди линије остају у складу са распоредом извора.
Обезбеђује детаљне метадане распореда тако да програмери могу реконструисати или репродуковати садржај.

Табела препознавања и екстракције

Аутоматски открива структуре табела унутар скенираних страница.
Излази садржај табеле као структуриране редове и ћелије са граничним координатима кутије.
Омогућава извоз доњег тока у ЦСВ, Екцел или прилагођене шеме.

Претварање претраживајућег документа

Уграђује препознати текст назад у ПДФ-а као невидљив слој, чинећи их претраживајућим без промене изгледа.
Сачува оригиналне скениране слике како би се сачувала визуелна верност.

Задржавање слике позадине

Кипс скенира слике нетакнуте у позадини.
Места препознатог текста су на врху за беспрекорно читање и штампање.

Прилагодљиви параметри препознавања

Прилагођавање режима сегментације за подешавања појединачних/многих колона.
Конфигуришите листу карактера/црна листа за специфично препознавање домена.
Контролна резолуција, ДПИ и препроцесирајући филтери (дескев, уклањање буке, трајање).

Мулти-језик и скрипт подршка

Препознава латински, цирилски и грчки, кинески или хиндијски.
Омогућава динамичко пуњење језичких паковања.
АПИ-а вам омогућавају да наведете примарне и секундарне језике препознавања по страници.

Унапређење и управљање ресурсима

Подржава мулти-странице ПДФ обраду.
Асинц АПИ омогућава паралелно обраду за радне оптерећења.
Обезбеђује опције за тонирање за употребу траке и величине буфера.

Пример: Екстракција текста из скенираних ПДФ-а

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Савети и најбоља пракса

Препроцес ПДФ-а (дескев, дескел, праг) за побољшање тачности.
Користите анализу распореда да бисте открили текст и табеле пре екстракције.
Примените ограничења поверења за валидацију критичног садржаја.
Ограничите конкурентне ОЦР моторе у баццх радовима како би се спречило прекидање ресурса.
Кацхе језик паковања и поновно коришћење ОЦР инстанце мотора на више страница.

Комбинујући ОЦР прецизност, табелу откривања и претраживајућу генерацију ПДФ-а, Аспосе.ОКР Скенирани ПдФ за текст за .НЕТ пружа комплетно решење за дигитализацију и екстракцију текста из скенираних П ДФД-ја док чува оригиналне распореде.