Převedení textu: Aspose.OCR Skenovaný PDF na text pro .NET
Sledování.OCR skenováno PDF Text pro .NET umožňuje vývojářům extrahovat text z skenovaných souborů PDF nebo je převést na plně vyhledávané dokumenty. čte jakýkoliv rozvrh a styl, přesně definuje strukturu textu a tabulek a uchovává originální obrázky v pozadí pro úplné zachování obsahu.
Instalace a nastavení
Chcete-li začít, nainstalujte balíček Aspose.OCR do vašeho projektu .NET prostřednictvím NuGet nebo z lokálně staženého souboru Instalace a průvodce.Před zavoláním jakýchkoli metod OCR nastavte měřené licence, jak je popsáno v Licencování na bázi měření a dokumentace.
Funkce a funkce
Textová extrakce z skenovaných PDF
- Čte stránky na bázi bitmapů a aplikuje OCR k extrahování rozpoznatelného textu.
- Podporuje jak jednorázové, tak i vícestránkové PDF vstupy.
- Exponuje textové fragmenty spolu s jejich polohou, znakovými atributy a důvěryhodnými skóremi.
OCR Přesnost a údržba rozložení
- Nabízí pokročilé motory OCR, aby maximalizovaly přesnost rozpoznávání na skáních nízké kvality.
- Udržuje tok dokumentu: odstavce, sloupce a řádkové přerušení zůstávají v souladu se zdrojovým rozvrhem.
- Poskytuje podrobné metadata uspořádání tak, aby vývojáři mohli restrukturalizovat nebo přenášet obsah.
Tabulka rozpoznávání a extrakce
- Automaticky detekuje tabulkové struktury uvnitř skenovaných stránek.
- Výstup obsah tabulky jako strukturované řádky a buňky s bounding box koordináty.
- Umožňuje downstream export do CSV, Excel nebo přizpůsobených schémat.
Vyhledávaná konverze dokumentů
- Vkládá rozpoznaný text zpět do PDF jako neviditelný vrstvu, takže je lze vyhledávat bez změny vzhledu.
- Udržuje originální skenované snímky, aby zachovala vizuální věrnost.
Zásadní zachování obrazu
- Keeps skenované obrázky netkané v pozadí.
- Umístění uznávaného textu je umístěno na vrcholu pro bezproblémové čtení a tisk.
Přizpůsobitelné rozpoznávací parametry
- Přizpůsobte režimy segmentace pro jednorázové/multi-kolumnové uspořádání.
- Nastavení znakového listu/černého seznamu pro určité uznání domény.
- Kontrolní rozlišení, DPI a předběžné filtry (desk, odstraňování hluku, hranice).
Vícejazyčná a skriptová podpora
- Rozpozná latinštinu, cyrilština, řecký, čínský, hindi a další.
- Umožňuje dynamické nabití jazykových balíčků.
- API vám umožní specifikovat primární a sekundární jazyky rozpoznávání na stránce.
Výkon a řízení zdrojů
- Podporuje vícestránkové zpracování PDF.
- Async API umožňují paralelní zpracování batchových pracovních zátěží.
- Nabízí možnosti tuningu pro použití thread a buffer velikosti.
Příklad: Odstraňování textu z skenovaných PDF
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tipy a nejlepší postupy
- Preprocesní PDF (deskew, despeckle, hranici) pro zvýšenou přesnost.
- Použijte analýzu uspořádání k detekci textu a tabulek před extrakcí.
- Použijte hranici důvěry k ověření kritického obsahu.
- Omezit konkurenceschopné motory OCR v balíčkách práce, aby se zabránilo kontaminaci zdrojů.
- Cache jazykové balíčky a opětovné využití OCR motorových příkladů na více stránkách.
Kombinováním přesnosti OCR, detekce tabulky a vyhledatelné generace PDF poskytuje Aspose.OCR Scanned PDF to Text for .NET kompletní řešení pro digitalizování a extrahování textu z skenovaných PDF při zachování původních layoutů.