Aspose.OCR Skanované PDF do textu pre .NET
ASPOSE.OCR skenované PDF Text pre .NET umožňuje vývojárom extrahovať text z skenovaných súborov PDF alebo ich premeniť na plne vyhľadávateľné dokumenty. číta akýkoľvek rozloženie a štýl, presne definuje štruktúru textu a tabuľky a zachováva pôvodné obrázky v pozadí pre úplné zachovanie obsahu.
Inštalácia a nastavenie
Ak chcete začať, nainštalujte balík Aspose.OCR do vášho projektu .NET prostredníctvom NuGet alebo z lokálne stiahnutého súboru inštalácia Sprievodca.Pred volaním akýchkoľvek metód OCR, nastaviť merané licencie, ako je popísané v Metrické licencie a dokumentácie.
Funkcie a funkcie
Textové extrakcie zo skenovaných PDF
- Číta stránky založené na bitmap a aplikuje OCR na extrahovanie rozpoznateľného textu.
- Podporuje jednorazové a viacstránkové vstupy PDF.
- Exponuje textové fragmenty spolu s ich pozíciou, znakovými atribútmi a dôvernými skóre.
OCR Presnosť a údržba rozloženia
- Poskytuje pokročilé motory OCR s cieľom maximalizovať presnosť rozpoznávania pri skanovaní nízkej kvality.
- Zachováva tok dokumentu: odseky, stĺpce a prerušenia línie zostávajú konzistentné so zdrojovým rozlohou.
- Poskytuje podrobné metaúdaje rozloženia tak, aby vývojári mohli rekonštruovať alebo prúdiť obsah.
Rozpoznávanie a extrakcia tabuľky
- Automaticky detekuje tabuľkové štruktúry v rámci skenovaných stránok.
- Výstup obsah tabuľky ako štruktúrované riadky a bunky s bounding box koordinátov.
- Umožňuje nízkonákladový export na CSV, Excel alebo prispôsobené schémy.
Hľadaná konverzia dokumentov
- Vklada rozpoznaný text späť do PDF ako neviditeľný vrstvu, čo ich umožňuje vyhľadávať bez zmeny vzhľadu.
- Zachováva originálne skenované snímky, aby sa zachovala vizuálna vernosť.
Zachovanie obrázkov pozadia
- Keeps skenované obrázky intaktne v pozadí.
- Miesto uznaný text je umiestnený na vrchole pre bezproblémové čítanie a tlač.
prispôsobiteľné rozpoznávacie parametre
- Nastavenie režimov segmentácie pre jednorazové/multi-kolumnové rozloženia.
- Nastaviť znakovú listinu/čierny zoznam pre špecifické rozpoznávanie domény.
- Kontrola rozlíšenia, DPI a predbežných filtrov (odstránenie, odstraňovanie hluku, hranice).
Viacjazyčná a skriptová podpora
- Rozpozná latinčinu, cyrilčiny, grécke, čínske, hindi a ďalšie.
- Umožňuje dynamické nabíjanie jazykových balíkov.
- API vám umožní špecifikovať primárne a sekundárny rozpoznávacie jazyky na stránku.
Výkon a riadenie zdrojov
- Podporuje viacstránkové spracovanie PDF.
- Async API umožňujú paralelné spracovanie pre batchové pracovné zaťaženie.
- Poskytuje možnosti tuningu pre použitie drôtu a veľkosti bufetu.
Príklad: Odstránenie textu zo skenovaných PDF
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tipy a najlepšie postupy
- Predbežné PDF (deskew, despeckle, hranici) pre lepšiu presnosť.
- Použite analýzu rozloženia na detekciu textu a tabuľky pred extrakciou.
- Aplikujte hranice dôvery na potvrdenie kritického obsahu.
- Obmedziť konkurencieschopné motory OCR v balíkoch pracovných miest, aby sa zabránilo kontaminácii zdrojov.
- Cache jazykové balíky a opätovné použitie príkladov motora OCR na viacerých stránkach.
Kombináciou presnosti OCR, detekcie tabuľky a vyhľadávateľnej generácie PDF, Aspose.OCR Scanned PDF to Text for .NET poskytuje kompletné riešenie pre digitalizáciu a extrakciu textu z skenovaných PDF pri zachovaní pôvodných rozložení.