Aspose.OCR Skannede PDF til tekst for .NET
Skanning af ASPOS.OCR PDF til Text for .NET giver udviklere mulighed for at udveksle tekst fra scannede PDF-filer eller konvertere dem til fuldt søgbare dokumenter. Det læser enhver layout og stil, præcist definerer strukturen af tekst og tabeller, og bevarer originale billeder i baggrunden for komplet indholdsbeholdelse.
Installation og installation
For at komme i gang, skal du installere Aspose.OCR-pakken i dit .NET-projekt via NuGet eller fra en lokalt downloadet fil Installation Guide til.Før du kalder nogen OCR metoder, konfigurere målt licensing som beskrevet i Målt licens og dokumentation.
Funktioner og funktioner
Tekstudvinding fra scannede PDF’er
- Det læser bitmap-baserede sider og anvender OCR til at udveksle genkendelig tekst.
- Det understøtter både enkelt- og multi-page PDF input.
- Eksponerer tekstfragmenter sammen med deres position, font attributter og tillid score.
OCR Nøjagtighed og Layout Retention
- Leverer avancerede OCR-motorer for at maksimere genkendelse nøjagtighed på lavkvalitets scanninger.
- Bevarer dokumentstrømmen: Paragrafer, kolonner og linjebrud forbliver i overensstemmelse med kildeordningen.
- Det giver detaljerede layout metadata, så udviklerne kan rekonstruere eller genfløje indhold.
Tabellen anerkendelse og udvinding
- Det opdager automatisk tabelstrukturer inden for scannede sider.
- Udgør tabelindhold som strukturerede rader og celler med grænsebokskoordinater.
- Tillader downstream eksport til CSV, Excel eller tilpassede skemaer.
Søgbar dokumentkonvertering
- Indsætter genkendt tekst tilbage i PDF’er som et usynlig lag, hvilket gør dem søgbare uden at ændre udseende.
- Opbevarer original scannede billeder for at bevare visuel troværdighed.
Baggrundsbilleder bevaret
- Keeps scannede billeder intakt i baggrunden.
- Placerer anerkendt tekst overlæs på toppen for sømløs læsning og udskrivning.
Tilpassede anerkendelsesparametre
- Tilpasse segmentationsløsninger til single/multi-column layouter.
- Konfigurer karakter hvidlist/blacklist for domænespecifik anerkendelse.
- Kontrolopløsning, DPI og præ-processing filtre (deskew, støj fjernelse, bremsning).
Multi-sprog og skriptsupport
- Det anerkender latin, cyrillisk, græsk, kinesisk og hindi og meget mere.
- Det giver mulighed for dynamisk opladning af sprogpakker.
- APIs giver dig mulighed for at angive primære og sekundære anerkendelsessprog pr. side.
Performance og ressourceforvaltning
- Støtter multi-page PDF-bearbejdning.
- Async APIs muliggør parallel bearbejdning for batchworkloads.
- Tilbyder tuning muligheder for thread brug og buffer størrelser.
Eksempel: Udvinding af tekst fra scannede PDF’er
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tips og bedste praksis
- Forhåndsbehandling af PDF’er (deskew, despeckle, threshold) for forbedret nøjagtighed.
- Brug layout-analyse til at opdage tekst og tabeller før udvinding.
- Anvend tillidsbegrænsninger til at validere kritisk indhold.
- Begræns konkurrencedygtige OCR-motorer i batchjobs for at forhindre ressourcekontraktion.
- Cache sprogpakker og genbruger OCR-motorinstanser på flere sider.
Ved at kombinere OCR nøjagtighed, tabeldetektion og søgbare PDF-generation, Aspose.OCR Scanned PDF to Text for .NET giver en komplet løsning til digitalisering og udvinding af tekst fra scannede PDF’er samtidig med at opretholde originale layouter.