Aspose.OCR Skanované PDF do textu pre .NET

ASPOSE.OCR skenované PDF Text pre .NET umožňuje vývojárom extrahovať text z skenovaných súborov PDF alebo ich premeniť na plne vyhľadávateľné dokumenty. číta akýkoľvek rozloženie a štýl, presne definuje štruktúru textu a tabuľky a zachováva pôvodné obrázky v pozadí pre úplné zachovanie obsahu.

Inštalácia a nastavenie

Ak chcete začať, nainštalujte balík Aspose.OCR do vášho projektu .NET prostredníctvom NuGet alebo z lokálne stiahnutého súboru inštalácia Sprievodca.Pred volaním akýchkoľvek metód OCR, nastaviť merané licencie, ako je popísané v Metrické licencie a dokumentácie.

Funkcie a funkcie

Textové extrakcie zo skenovaných PDF

  • Číta stránky založené na bitmap a aplikuje OCR na extrahovanie rozpoznateľného textu.
  • Podporuje jednorazové a viacstránkové vstupy PDF.
  • Exponuje textové fragmenty spolu s ich pozíciou, znakovými atribútmi a dôvernými skóre.

OCR Presnosť a údržba rozloženia

  • Poskytuje pokročilé motory OCR s cieľom maximalizovať presnosť rozpoznávania pri skanovaní nízkej kvality.
  • Zachováva tok dokumentu: odseky, stĺpce a prerušenia línie zostávajú konzistentné so zdrojovým rozlohou.
  • Poskytuje podrobné metaúdaje rozloženia tak, aby vývojári mohli rekonštruovať alebo prúdiť obsah.

Rozpoznávanie a extrakcia tabuľky

  • Automaticky detekuje tabuľkové štruktúry v rámci skenovaných stránok.
  • Výstup obsah tabuľky ako štruktúrované riadky a bunky s bounding box koordinátov.
  • Umožňuje nízkonákladový export na CSV, Excel alebo prispôsobené schémy.

Hľadaná konverzia dokumentov

  • Vklada rozpoznaný text späť do PDF ako neviditeľný vrstvu, čo ich umožňuje vyhľadávať bez zmeny vzhľadu.
  • Zachováva originálne skenované snímky, aby sa zachovala vizuálna vernosť.

Zachovanie obrázkov pozadia

  • Keeps skenované obrázky intaktne v pozadí.
  • Miesto uznaný text je umiestnený na vrchole pre bezproblémové čítanie a tlač.

prispôsobiteľné rozpoznávacie parametre

  • Nastavenie režimov segmentácie pre jednorazové/multi-kolumnové rozloženia.
  • Nastaviť znakovú listinu/čierny zoznam pre špecifické rozpoznávanie domény.
  • Kontrola rozlíšenia, DPI a predbežných filtrov (odstránenie, odstraňovanie hluku, hranice).

Viacjazyčná a skriptová podpora

  • Rozpozná latinčinu, cyrilčiny, grécke, čínske, hindi a ďalšie.
  • Umožňuje dynamické nabíjanie jazykových balíkov.
  • API vám umožní špecifikovať primárne a sekundárny rozpoznávacie jazyky na stránku.

Výkon a riadenie zdrojov

  • Podporuje viacstránkové spracovanie PDF.
  • Async API umožňujú paralelné spracovanie pre batchové pracovné zaťaženie.
  • Poskytuje možnosti tuningu pre použitie drôtu a veľkosti bufetu.

Príklad: Odstránenie textu zo skenovaných PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tipy a najlepšie postupy

  • Predbežné PDF (deskew, despeckle, hranici) pre lepšiu presnosť.
  • Použite analýzu rozloženia na detekciu textu a tabuľky pred extrakciou.
  • Aplikujte hranice dôvery na potvrdenie kritického obsahu.
  • Obmedziť konkurencieschopné motory OCR v balíkoch pracovných miest, aby sa zabránilo kontaminácii zdrojov.
  • Cache jazykové balíky a opätovné použitie príkladov motora OCR na viacerých stránkach.

Kombináciou presnosti OCR, detekcie tabuľky a vyhľadávateľnej generácie PDF, Aspose.OCR Scanned PDF to Text for .NET poskytuje kompletné riešenie pre digitalizáciu a extrakciu textu z skenovaných PDF pri zachovaní pôvodných rozložení.

 Slovenčina