Převedení textu: Aspose.OCR Skenovaný PDF na text pro .NET

Sledování.OCR skenováno PDF Text pro .NET umožňuje vývojářům extrahovat text z skenovaných souborů PDF nebo je převést na plně vyhledávané dokumenty. čte jakýkoliv rozvrh a styl, přesně definuje strukturu textu a tabulek a uchovává originální obrázky v pozadí pro úplné zachování obsahu.

Instalace a nastavení

Chcete-li začít, nainstalujte balíček Aspose.OCR do vašeho projektu .NET prostřednictvím NuGet nebo z lokálně staženého souboru Instalace a průvodce.Před zavoláním jakýchkoli metod OCR nastavte měřené licence, jak je popsáno v Licencování na bázi měření a dokumentace.

Funkce a funkce

Textová extrakce z skenovaných PDF

Čte stránky na bázi bitmapů a aplikuje OCR k extrahování rozpoznatelného textu.
Podporuje jak jednorázové, tak i vícestránkové PDF vstupy.
Exponuje textové fragmenty spolu s jejich polohou, znakovými atributy a důvěryhodnými skóremi.

OCR Přesnost a údržba rozložení

Nabízí pokročilé motory OCR, aby maximalizovaly přesnost rozpoznávání na skáních nízké kvality.
Udržuje tok dokumentu: odstavce, sloupce a řádkové přerušení zůstávají v souladu se zdrojovým rozvrhem.
Poskytuje podrobné metadata uspořádání tak, aby vývojáři mohli restrukturalizovat nebo přenášet obsah.

Tabulka rozpoznávání a extrakce

Automaticky detekuje tabulkové struktury uvnitř skenovaných stránek.
Výstup obsah tabulky jako strukturované řádky a buňky s bounding box koordináty.
Umožňuje downstream export do CSV, Excel nebo přizpůsobených schémat.

Vyhledávaná konverze dokumentů

Vkládá rozpoznaný text zpět do PDF jako neviditelný vrstvu, takže je lze vyhledávat bez změny vzhledu.
Udržuje originální skenované snímky, aby zachovala vizuální věrnost.

Zásadní zachování obrazu

Keeps skenované obrázky netkané v pozadí.
Umístění uznávaného textu je umístěno na vrcholu pro bezproblémové čtení a tisk.

Přizpůsobitelné rozpoznávací parametry

Přizpůsobte režimy segmentace pro jednorázové/multi-kolumnové uspořádání.
Nastavení znakového listu/černého seznamu pro určité uznání domény.
Kontrolní rozlišení, DPI a předběžné filtry (desk, odstraňování hluku, hranice).

Vícejazyčná a skriptová podpora

Rozpozná latinštinu, cyrilština, řecký, čínský, hindi a další.
Umožňuje dynamické nabití jazykových balíčků.
API vám umožní specifikovat primární a sekundární jazyky rozpoznávání na stránce.

Výkon a řízení zdrojů

Podporuje vícestránkové zpracování PDF.
Async API umožňují paralelní zpracování batchových pracovních zátěží.
Nabízí možnosti tuningu pro použití thread a buffer velikosti.

Příklad: Odstraňování textu z skenovaných PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tipy a nejlepší postupy

Preprocesní PDF (deskew, despeckle, hranici) pro zvýšenou přesnost.
Použijte analýzu uspořádání k detekci textu a tabulek před extrakcí.
Použijte hranici důvěry k ověření kritického obsahu.
Omezit konkurenceschopné motory OCR v balíčkách práce, aby se zabránilo kontaminaci zdrojů.
Cache jazykové balíčky a opětovné využití OCR motorových příkladů na více stránkách.

Kombinováním přesnosti OCR, detekce tabulky a vyhledatelné generace PDF poskytuje Aspose.OCR Scanned PDF to Text for .NET kompletní řešení pro digitalizování a extrahování textu z skenovaných PDF při zachování původních layoutů.