Aspose.OCR Skannede PDF til tekst for .NET

Skanning af ASPOS.OCR PDF til Text for .NET giver udviklere mulighed for at udveksle tekst fra scannede PDF-filer eller konvertere dem til fuldt søgbare dokumenter. Det læser enhver layout og stil, præcist definerer strukturen af tekst og tabeller, og bevarer originale billeder i baggrunden for komplet indholdsbeholdelse.

Installation og installation

For at komme i gang, skal du installere Aspose.OCR-pakken i dit .NET-projekt via NuGet eller fra en lokalt downloadet fil Installation Guide til.Før du kalder nogen OCR metoder, konfigurere målt licensing som beskrevet i Målt licens og dokumentation.

Funktioner og funktioner

Tekstudvinding fra scannede PDF’er

  • Det læser bitmap-baserede sider og anvender OCR til at udveksle genkendelig tekst.
  • Det understøtter både enkelt- og multi-page PDF input.
  • Eksponerer tekstfragmenter sammen med deres position, font attributter og tillid score.

OCR Nøjagtighed og Layout Retention

  • Leverer avancerede OCR-motorer for at maksimere genkendelse nøjagtighed på lavkvalitets scanninger.
  • Bevarer dokumentstrømmen: Paragrafer, kolonner og linjebrud forbliver i overensstemmelse med kildeordningen.
  • Det giver detaljerede layout metadata, så udviklerne kan rekonstruere eller genfløje indhold.

Tabellen anerkendelse og udvinding

  • Det opdager automatisk tabelstrukturer inden for scannede sider.
  • Udgør tabelindhold som strukturerede rader og celler med grænsebokskoordinater.
  • Tillader downstream eksport til CSV, Excel eller tilpassede skemaer.

Søgbar dokumentkonvertering

  • Indsætter genkendt tekst tilbage i PDF’er som et usynlig lag, hvilket gør dem søgbare uden at ændre udseende.
  • Opbevarer original scannede billeder for at bevare visuel troværdighed.

Baggrundsbilleder bevaret

  • Keeps scannede billeder intakt i baggrunden.
  • Placerer anerkendt tekst overlæs på toppen for sømløs læsning og udskrivning.

Tilpassede anerkendelsesparametre

  • Tilpasse segmentationsløsninger til single/multi-column layouter.
  • Konfigurer karakter hvidlist/blacklist for domænespecifik anerkendelse.
  • Kontrolopløsning, DPI og præ-processing filtre (deskew, støj fjernelse, bremsning).

Multi-sprog og skriptsupport

  • Det anerkender latin, cyrillisk, græsk, kinesisk og hindi og meget mere.
  • Det giver mulighed for dynamisk opladning af sprogpakker.
  • APIs giver dig mulighed for at angive primære og sekundære anerkendelsessprog pr. side.

Performance og ressourceforvaltning

  • Støtter multi-page PDF-bearbejdning.
  • Async APIs muliggør parallel bearbejdning for batchworkloads.
  • Tilbyder tuning muligheder for thread brug og buffer størrelser.

Eksempel: Udvinding af tekst fra scannede PDF’er

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips og bedste praksis

  • Forhåndsbehandling af PDF’er (deskew, despeckle, threshold) for forbedret nøjagtighed.
  • Brug layout-analyse til at opdage tekst og tabeller før udvinding.
  • Anvend tillidsbegrænsninger til at validere kritisk indhold.
  • Begræns konkurrencedygtige OCR-motorer i batchjobs for at forhindre ressourcekontraktion.
  • Cache sprogpakker og genbruger OCR-motorinstanser på flere sider.

Ved at kombinere OCR nøjagtighed, tabeldetektion og søgbare PDF-generation, Aspose.OCR Scanned PDF to Text for .NET giver en komplet løsning til digitalisering og udvinding af tekst fra scannede PDF’er samtidig med at opretholde originale layouter.

 Dansk