Aspose.OCR Skanované PDF do textu pre .NET

Aspose.OCR skenované PDF Text pre .NET umožňuje vývojárom extrahovať text z skenovaných súborov PDF alebo ich premeniť na plne vyhľadávateľné dokumenty. číta akýkoľvek rozloženie a štýl, presne definuje štruktúru textu a tabuľky a zachováva pôvodné obrázky v pozadí pre úplné zachovanie obsahu.

Inštalácia a nastavenie

Ak chcete začať, nainštalujte balík Aspose.OCR do vášho projektu .NET prostredníctvom NuGet alebo z lokálne stiahnutého súboru inštalácia Sprievodca.Pred volaním akýchkoľvek metód OCR, nastaviť merané licencie, ako je popísané v Metrické licencie a dokumentácie.

Funkcie a funkcie

Textové extrakcie zo skenovaných PDF

Číta stránky založené na bitmap a aplikuje OCR na extrahovanie rozpoznateľného textu.
Podporuje jednorazové a viacstránkové vstupy PDF.
Exponuje textové fragmenty spolu s ich pozíciou, znakovými atribútmi a dôvernými skóre.

OCR Presnosť a údržba rozloženia

Poskytuje pokročilé motory OCR s cieľom maximalizovať presnosť rozpoznávania pri skanovaní nízkej kvality.
Zachováva tok dokumentu: odseky, stĺpce a prerušenia línie zostávajú konzistentné so zdrojovým rozlohou.
Poskytuje podrobné metaúdaje rozloženia tak, aby vývojári mohli rekonštruovať alebo prúdiť obsah.

Rozpoznávanie a extrakcia tabuľky

Automaticky detekuje tabuľkové štruktúry v rámci skenovaných stránok.
Výstup obsah tabuľky ako štruktúrované riadky a bunky s bounding box koordinátov.
Umožňuje nízkonákladový export na CSV, Excel alebo prispôsobené schémy.

Hľadaná konverzia dokumentov

Vklada rozpoznaný text späť do PDF ako neviditeľný vrstvu, čo ich umožňuje vyhľadávať bez zmeny vzhľadu.
Zachováva originálne skenované snímky, aby sa zachovala vizuálna vernosť.

Zachovanie obrázkov pozadia

Keeps skenované obrázky intaktne v pozadí.
Miesto uznaný text je umiestnený na vrchole pre bezproblémové čítanie a tlač.

prispôsobiteľné rozpoznávacie parametre

Nastavenie režimov segmentácie pre jednorazové/multi-kolumnové rozloženia.
Nastaviť znakovú listinu/čierny zoznam pre špecifické rozpoznávanie domény.
Kontrola rozlíšenia, DPI a predbežných filtrov (odstránenie, odstraňovanie hluku, hranice).

Viacjazyčná a skriptová podpora

Rozpozná latinčinu, cyrilčiny, grécke, čínske, hindi a ďalšie.
Umožňuje dynamické nabíjanie jazykových balíkov.
API vám umožní špecifikovať primárne a sekundárny rozpoznávacie jazyky na stránku.

Výkon a riadenie zdrojov

Podporuje viacstránkové spracovanie PDF.
Async API umožňujú paralelné spracovanie pre batchové pracovné zaťaženie.
Poskytuje možnosti tuningu pre použitie drôtu a veľkosti bufetu.

Príklad: Odstránenie textu zo skenovaných PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tipy a najlepšie postupy

Predbežné PDF (deskew, despeckle, hranici) pre lepšiu presnosť.
Použite analýzu rozloženia na detekciu textu a tabuľky pred extrakciou.
Aplikujte hranice dôvery na potvrdenie kritického obsahu.
Obmedziť konkurencieschopné motory OCR v balíkoch pracovných miest, aby sa zabránilo kontaminácii zdrojov.
Cache jazykové balíky a opätovné použitie príkladov motora OCR na viacerých stránkach.

Kombináciou presnosti OCR, detekcie tabuľky a vyhľadávateľnej generácie PDF, Aspose.OCR Scanned PDF to Text for .NET poskytuje kompletné riešenie pre digitalizáciu a extrakciu textu z skenovaných PDF pri zachovaní pôvodných rozložení.