Aspose.OCR Скенирао ПДФ у текст за .NET

Апсос.ОКР Скениран ПДФ Text for .NET омогућава програмерима да извуку текст из скенираних ПДФ датотека или их конвертују у потпуно претраживајуће документе. чита било који распоред и стил, тачно дефинише структуру текста и табела, и чува оригиналне слике у позадини за потпуну задржавање садржаја.

Инсталација и подешавање

Да бисте почели, инсталирајте пакету Aspose.OCR у ваш .NET пројекат путем NuGet или из локално преузетог датотеке Инсталација Упутство.Пре него што позовете било какве ОЦР методе, конфигуришете мерене лиценце као што је описано у Метеран лиценцирање То је документација.

Карактеристике и функције

Извлачење текста из скенираних ПДФ-а

  • Чита странице засноване на битмапи и примењује ОЦР за извлачење препознатљивог текста.
  • Подржава и једностране и мултистрани ПДФ улаз.
  • Излага текстуалне фрагменте заједно са њиховим положајем, атрибутима шрифта и резултатима поверења.

OCR прецизност и задржавање распореда

  • Достави напредне ОЦР моторе како би се максимизирала прецизност препознавања на ниским квалитетима скенирања.
  • Сачува ток докумената: параграфи, колоне и прекиди линије остају у складу са распоредом извора.
  • Обезбеђује детаљне метадане распореда тако да програмери могу реконструисати или репродуковати садржај.

Табела препознавања и екстракције

  • Аутоматски открива структуре табела унутар скенираних страница.
  • Излази садржај табеле као структуриране редове и ћелије са граничним координатима кутије.
  • Омогућава извоз доњег тока у ЦСВ, Екцел или прилагођене шеме.

Претварање претраживајућег документа

  • Уграђује препознати текст назад у ПДФ-а као невидљив слој, чинећи их претраживајућим без промене изгледа.
  • Сачува оригиналне скениране слике како би се сачувала визуелна верност.

Задржавање слике позадине

  • Кипс скенира слике нетакнуте у позадини.
  • Места препознатог текста су на врху за беспрекорно читање и штампање.

Прилагодљиви параметри препознавања

  • Прилагођавање режима сегментације за подешавања појединачних/многих колона.
  • Конфигуришите листу карактера/црна листа за специфично препознавање домена.
  • Контролна резолуција, ДПИ и препроцесирајући филтери (дескев, уклањање буке, трајање).

Мулти-језик и скрипт подршка

  • Препознава латински, цирилски и грчки, кинески или хиндијски.
  • Омогућава динамичко пуњење језичких паковања.
  • АПИ-а вам омогућавају да наведете примарне и секундарне језике препознавања по страници.

Унапређење и управљање ресурсима

  • Подржава мулти-странице ПДФ обраду.
  • Асинц АПИ омогућава паралелно обраду за радне оптерећења.
  • Обезбеђује опције за тонирање за употребу траке и величине буфера.

Пример: Екстракција текста из скенираних ПДФ-а

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Савети и најбоља пракса

  • Препроцес ПДФ-а (дескев, дескел, праг) за побољшање тачности.
  • Користите анализу распореда да бисте открили текст и табеле пре екстракције.
  • Примените ограничења поверења за валидацију критичног садржаја.
  • Ограничите конкурентне ОЦР моторе у баццх радовима како би се спречило прекидање ресурса.
  • Кацхе језик паковања и поновно коришћење ОЦР инстанце мотора на више страница.

Комбинујући ОЦР прецизност, табелу откривања и претраживајућу генерацију ПДФ-а, Аспосе.ОКР Скенирани ПдФ за текст за .НЕТ пружа комплетно решење за дигитализацију и екстракцију текста из скенираних П ДФД-ја док чува оригиналне распореде.

 Српски