Aspose.OCR Скенирао ПДФ у текст за .NET
Апсос.ОКР Скениран ПДФ Text for .NET омогућава програмерима да извуку текст из скенираних ПДФ датотека или их конвертују у потпуно претраживајуће документе. чита било који распоред и стил, тачно дефинише структуру текста и табела, и чува оригиналне слике у позадини за потпуну задржавање садржаја.
Инсталација и подешавање
Да бисте почели, инсталирајте пакету Aspose.OCR у ваш .NET пројекат путем NuGet или из локално преузетог датотеке Инсталација Упутство.Пре него што позовете било какве ОЦР методе, конфигуришете мерене лиценце као што је описано у Метеран лиценцирање То је документација.
Карактеристике и функције
Извлачење текста из скенираних ПДФ-а
- Чита странице засноване на битмапи и примењује ОЦР за извлачење препознатљивог текста.
- Подржава и једностране и мултистрани ПДФ улаз.
- Излага текстуалне фрагменте заједно са њиховим положајем, атрибутима шрифта и резултатима поверења.
OCR прецизност и задржавање распореда
- Достави напредне ОЦР моторе како би се максимизирала прецизност препознавања на ниским квалитетима скенирања.
- Сачува ток докумената: параграфи, колоне и прекиди линије остају у складу са распоредом извора.
- Обезбеђује детаљне метадане распореда тако да програмери могу реконструисати или репродуковати садржај.
Табела препознавања и екстракције
- Аутоматски открива структуре табела унутар скенираних страница.
- Излази садржај табеле као структуриране редове и ћелије са граничним координатима кутије.
- Омогућава извоз доњег тока у ЦСВ, Екцел или прилагођене шеме.
Претварање претраживајућег документа
- Уграђује препознати текст назад у ПДФ-а као невидљив слој, чинећи их претраживајућим без промене изгледа.
- Сачува оригиналне скениране слике како би се сачувала визуелна верност.
Задржавање слике позадине
- Кипс скенира слике нетакнуте у позадини.
- Места препознатог текста су на врху за беспрекорно читање и штампање.
Прилагодљиви параметри препознавања
- Прилагођавање режима сегментације за подешавања појединачних/многих колона.
- Конфигуришите листу карактера/црна листа за специфично препознавање домена.
- Контролна резолуција, ДПИ и препроцесирајући филтери (дескев, уклањање буке, трајање).
Мулти-језик и скрипт подршка
- Препознава латински, цирилски и грчки, кинески или хиндијски.
- Омогућава динамичко пуњење језичких паковања.
- АПИ-а вам омогућавају да наведете примарне и секундарне језике препознавања по страници.
Унапређење и управљање ресурсима
- Подржава мулти-странице ПДФ обраду.
- Асинц АПИ омогућава паралелно обраду за радне оптерећења.
- Обезбеђује опције за тонирање за употребу траке и величине буфера.
Пример: Екстракција текста из скенираних ПДФ-а
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Савети и најбоља пракса
- Препроцес ПДФ-а (дескев, дескел, праг) за побољшање тачности.
- Користите анализу распореда да бисте открили текст и табеле пре екстракције.
- Примените ограничења поверења за валидацију критичног садржаја.
- Ограничите конкурентне ОЦР моторе у баццх радовима како би се спречило прекидање ресурса.
- Кацхе језик паковања и поновно коришћење ОЦР инстанце мотора на више страница.
Комбинујући ОЦР прецизност, табелу откривања и претраживајућу генерацију ПДФ-а, Аспосе.ОКР Скенирани ПдФ за текст за .НЕТ пружа комплетно решење за дигитализацију и екстракцију текста из скенираних П ДФД-ја док чува оригиналне распореде.