Aspose.OCR Skannede PDF til tekst for .NET

Skanning af ASPOS.OCR PDF til Text for .NET giver udviklere mulighed for at udveksle tekst fra scannede PDF-filer eller konvertere dem til fuldt søgbare dokumenter. Det læser enhver layout og stil, præcist definerer strukturen af tekst og tabeller, og bevarer originale billeder i baggrunden for komplet indholdsbeholdelse.

Installation og installation

For at komme i gang, skal du installere Aspose.OCR-pakken i dit .NET-projekt via NuGet eller fra en lokalt downloadet fil Installation Guide til.Før du kalder nogen OCR metoder, konfigurere målt licensing som beskrevet i Målt licens og dokumentation.

Funktioner og funktioner

Tekstudvinding fra scannede PDF’er

Det læser bitmap-baserede sider og anvender OCR til at udveksle genkendelig tekst.
Det understøtter både enkelt- og multi-page PDF input.
Eksponerer tekstfragmenter sammen med deres position, font attributter og tillid score.

OCR Nøjagtighed og Layout Retention

Leverer avancerede OCR-motorer for at maksimere genkendelse nøjagtighed på lavkvalitets scanninger.
Bevarer dokumentstrømmen: Paragrafer, kolonner og linjebrud forbliver i overensstemmelse med kildeordningen.
Det giver detaljerede layout metadata, så udviklerne kan rekonstruere eller genfløje indhold.

Tabellen anerkendelse og udvinding

Det opdager automatisk tabelstrukturer inden for scannede sider.
Udgør tabelindhold som strukturerede rader og celler med grænsebokskoordinater.
Tillader downstream eksport til CSV, Excel eller tilpassede skemaer.

Søgbar dokumentkonvertering

Indsætter genkendt tekst tilbage i PDF’er som et usynlig lag, hvilket gør dem søgbare uden at ændre udseende.
Opbevarer original scannede billeder for at bevare visuel troværdighed.

Baggrundsbilleder bevaret

Keeps scannede billeder intakt i baggrunden.
Placerer anerkendt tekst overlæs på toppen for sømløs læsning og udskrivning.

Tilpassede anerkendelsesparametre

Tilpasse segmentationsløsninger til single/multi-column layouter.
Konfigurer karakter hvidlist/blacklist for domænespecifik anerkendelse.
Kontrolopløsning, DPI og præ-processing filtre (deskew, støj fjernelse, bremsning).

Multi-sprog og skriptsupport

Det anerkender latin, cyrillisk, græsk, kinesisk og hindi og meget mere.
Det giver mulighed for dynamisk opladning af sprogpakker.
APIs giver dig mulighed for at angive primære og sekundære anerkendelsessprog pr. side.

Performance og ressourceforvaltning

Støtter multi-page PDF-bearbejdning.
Async APIs muliggør parallel bearbejdning for batchworkloads.
Tilbyder tuning muligheder for thread brug og buffer størrelser.

Eksempel: Udvinding af tekst fra scannede PDF’er

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips og bedste praksis

Forhåndsbehandling af PDF’er (deskew, despeckle, threshold) for forbedret nøjagtighed.
Brug layout-analyse til at opdage tekst og tabeller før udvinding.
Anvend tillidsbegrænsninger til at validere kritisk indhold.
Begræns konkurrencedygtige OCR-motorer i batchjobs for at forhindre ressourcekontraktion.
Cache sprogpakker og genbruger OCR-motorinstanser på flere sider.

Ved at kombinere OCR nøjagtighed, tabeldetektion og søgbare PDF-generation, Aspose.OCR Scanned PDF to Text for .NET giver en komplet løsning til digitalisering og udvinding af tekst fra scannede PDF’er samtidig med at opretholde originale layouter.