Převedení textu: Aspose.OCR Skenovaný PDF na text pro .NET

Sledování.OCR skenováno PDF Text pro .NET umožňuje vývojářům extrahovat text z skenovaných souborů PDF nebo je převést na plně vyhledávané dokumenty. čte jakýkoliv rozvrh a styl, přesně definuje strukturu textu a tabulek a uchovává originální obrázky v pozadí pro úplné zachování obsahu.

Instalace a nastavení

Chcete-li začít, nainstalujte balíček Aspose.OCR do vašeho projektu .NET prostřednictvím NuGet nebo z lokálně staženého souboru Instalace a průvodce.Před zavoláním jakýchkoli metod OCR nastavte měřené licence, jak je popsáno v Licencování na bázi měření a dokumentace.

Funkce a funkce

Textová extrakce z skenovaných PDF

  • Čte stránky na bázi bitmapů a aplikuje OCR k extrahování rozpoznatelného textu.
  • Podporuje jak jednorázové, tak i vícestránkové PDF vstupy.
  • Exponuje textové fragmenty spolu s jejich polohou, znakovými atributy a důvěryhodnými skóremi.

OCR Přesnost a údržba rozložení

  • Nabízí pokročilé motory OCR, aby maximalizovaly přesnost rozpoznávání na skáních nízké kvality.
  • Udržuje tok dokumentu: odstavce, sloupce a řádkové přerušení zůstávají v souladu se zdrojovým rozvrhem.
  • Poskytuje podrobné metadata uspořádání tak, aby vývojáři mohli restrukturalizovat nebo přenášet obsah.

Tabulka rozpoznávání a extrakce

  • Automaticky detekuje tabulkové struktury uvnitř skenovaných stránek.
  • Výstup obsah tabulky jako strukturované řádky a buňky s bounding box koordináty.
  • Umožňuje downstream export do CSV, Excel nebo přizpůsobených schémat.

Vyhledávaná konverze dokumentů

  • Vkládá rozpoznaný text zpět do PDF jako neviditelný vrstvu, takže je lze vyhledávat bez změny vzhledu.
  • Udržuje originální skenované snímky, aby zachovala vizuální věrnost.

Zásadní zachování obrazu

  • Keeps skenované obrázky netkané v pozadí.
  • Umístění uznávaného textu je umístěno na vrcholu pro bezproblémové čtení a tisk.

Přizpůsobitelné rozpoznávací parametry

  • Přizpůsobte režimy segmentace pro jednorázové/multi-kolumnové uspořádání.
  • Nastavení znakového listu/černého seznamu pro určité uznání domény.
  • Kontrolní rozlišení, DPI a předběžné filtry (desk, odstraňování hluku, hranice).

Vícejazyčná a skriptová podpora

  • Rozpozná latinštinu, cyrilština, řecký, čínský, hindi a další.
  • Umožňuje dynamické nabití jazykových balíčků.
  • API vám umožní specifikovat primární a sekundární jazyky rozpoznávání na stránce.

Výkon a řízení zdrojů

  • Podporuje vícestránkové zpracování PDF.
  • Async API umožňují paralelní zpracování batchových pracovních zátěží.
  • Nabízí možnosti tuningu pro použití thread a buffer velikosti.

Příklad: Odstraňování textu z skenovaných PDF

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tipy a nejlepší postupy

  • Preprocesní PDF (deskew, despeckle, hranici) pro zvýšenou přesnost.
  • Použijte analýzu uspořádání k detekci textu a tabulek před extrakcí.
  • Použijte hranici důvěry k ověření kritického obsahu.
  • Omezit konkurenceschopné motory OCR v balíčkách práce, aby se zabránilo kontaminaci zdrojů.
  • Cache jazykové balíčky a opětovné využití OCR motorových příkladů na více stránkách.

Kombinováním přesnosti OCR, detekce tabulky a vyhledatelné generace PDF poskytuje Aspose.OCR Scanned PDF to Text for .NET kompletní řešení pro digitalizování a extrahování textu z skenovaných PDF při zachování původních layoutů.

 Čeština