Aspose.OCR Skannet PDF til tekst for .NET

Aspose.OCR Scannert PDF til Text for .NET gjør det mulig for utviklere å trekke tekst fra skannede PDF-filer eller konvertere dem til fullt søkbare dokumenter. Det leser enhver layout og stil, definerer nøyaktig strukturen av tekst og tabeller, og bevarer originale bilder i bakgrunnen for full innholdsbevaring.

Installasjon og installasjon

For å starte, installere Aspose.OCR-pakken i .NET-prosjektet ditt via NuGet eller fra en lokalt nedlastet fil Installation og guide.Før du kaller noen OCR metoder, konfigurere målt lisens som beskrevet i målt lisens og dokumentasjon.

Egenskaper og funksjoner

Tekstutvinning fra skannede PDF-er

Leser bitmap-baserte sider og bruker OCR for å ekstrakte gjenkjennelig tekst.
Støtter både enkelt- og flere-siders PDF-innføring.
Eksponerer tekstfragmenter sammen med deres posisjon, fontattributter og tillit score.

OCR nøyaktighet og layout opprettholdelse

Leverer avanserte OCR-motorer for å maksimere gjenkjennings nøyaktighet på lavkvalitets skanninger.
Bevar dokumentstrømmen: Paragrafer, kolonner og linjebrudd forblir konsistent med kilde layout.
Det gir detaljerte layout metadata slik at utviklere kan rekonstruere eller omflyte innhold.

Tabell anerkjennelse og ekstraksjon

Detekterer automatisk tabellstrukturer innenfor skannede sider.
Utvinner tabellinnhold som strukturerte rader og celler med bunnboks koordinater.
Det gjør det mulig å eksportere downstream til CSV, Excel eller tilpassede diagrammer.

Søkbar dokumentkonvertering

Inngår gjenkjent tekst tilbake i PDF-er som et usynlig lag, slik at de kan søkes uten å endre utseendet.
Oppbevarer originalskannet bilde for å bevare visuell lojalitet.

Bakgrunnsbilde bevaring

Keeps skannede bilder intakt i bakgrunnen.
Plasser gjenkjent tekst overlater på toppen for sømløs lesing og utskrift.

Tilpassbare gjenkjennelsesparametre

Tilpasse segmentasjonsmodus for single/multi-column layouts.
Konfigurer karakter hvitlist/blacklist for domenenespecifik gjenkjennelse.
Kontrolloppløsning, DPI, og preprocessing filtre (deskew, støy fjerde, trengsel).

Flerspråklig og skriptstøtte

Kjenner Latin, Cyrillic, gresk, kinesisk, hindi, og mer.
Det muliggjør dynamisk lading av språkpakker.
APIs lar deg angi primære og sekundære gjenkjenningsspråk per side.

Performance og ressursforvaltning

Støtter PDF-prosessering med flere sider.
Async APIs muliggjør parallell behandling for batch arbeidsbelastninger.
Det gir tuningsalternativer for trådbruk og bufferstørrelser.

Eksempel: Utvinning av tekst fra skannede PDF-er

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips og beste praksis

Forhåndsbehandling av PDF-er (deskew, despeckle, threshold) for bedre nøyaktighet.
Bruk layout-analyse for å oppdage tekst og tabeller før ekstraksjon.
Bruk tillitsgrenser for å validere kritisk innhold.
Begrense konkurransedyktige OCR-motorer i batchjobber for å forhindre ressurskontraksjon.
Cache språkpakker og gjenbruker OCR-motorinstanser over flere sider.

Ved å kombinere OCR nøyaktighet, tabelldeteksjon og søkbar PDF-generasjon, Aspose.OCR Scanned PDF to Text for .NET gir en komplett løsning for digitalisering og utvinning av tekst fra skannede PDFer mens opprettholde originale layouter.