Aspose.OCR Skannet PDF til tekst for .NET
ASPOSE.OCR Scannert PDF til Text for .NET gjør det mulig for utviklere å trekke tekst fra skannede PDF-filer eller konvertere dem til fullt søkbare dokumenter. Det leser enhver layout og stil, definerer nøyaktig strukturen av tekst og tabeller, og bevarer originale bilder i bakgrunnen for full innholdsbevaring.
Installasjon og installasjon
For å starte, installere Aspose.OCR-pakken i .NET-prosjektet ditt via NuGet eller fra en lokalt nedlastet fil Installation og guide.Før du kaller noen OCR metoder, konfigurere målt lisens som beskrevet i målt lisens og dokumentasjon.
Egenskaper og funksjoner
Tekstutvinning fra skannede PDF-er
- Leser bitmap-baserte sider og bruker OCR for å ekstrakte gjenkjennelig tekst.
- Støtter både enkelt- og flere-siders PDF-innføring.
- Eksponerer tekstfragmenter sammen med deres posisjon, fontattributter og tillit score.
OCR nøyaktighet og layout opprettholdelse
- Leverer avanserte OCR-motorer for å maksimere gjenkjennings nøyaktighet på lavkvalitets skanninger.
- Bevar dokumentstrømmen: Paragrafer, kolonner og linjebrudd forblir konsistent med kilde layout.
- Det gir detaljerte layout metadata slik at utviklere kan rekonstruere eller omflyte innhold.
Tabell anerkjennelse og ekstraksjon
- Detekterer automatisk tabellstrukturer innenfor skannede sider.
- Utvinner tabellinnhold som strukturerte rader og celler med bunnboks koordinater.
- Det gjør det mulig å eksportere downstream til CSV, Excel eller tilpassede diagrammer.
Søkbar dokumentkonvertering
- Inngår gjenkjent tekst tilbake i PDF-er som et usynlig lag, slik at de kan søkes uten å endre utseendet.
- Oppbevarer originalskannet bilde for å bevare visuell lojalitet.
Bakgrunnsbilde bevaring
- Keeps skannede bilder intakt i bakgrunnen.
- Plasser gjenkjent tekst overlater på toppen for sømløs lesing og utskrift.
Tilpassbare gjenkjennelsesparametre
- Tilpasse segmentasjonsmodus for single/multi-column layouts.
- Konfigurer karakter hvitlist/blacklist for domenenespecifik gjenkjennelse.
- Kontrolloppløsning, DPI, og preprocessing filtre (deskew, støy fjerde, trengsel).
Flerspråklig og skriptstøtte
- Kjenner Latin, Cyrillic, gresk, kinesisk, hindi, og mer.
- Det muliggjør dynamisk lading av språkpakker.
- APIs lar deg angi primære og sekundære gjenkjenningsspråk per side.
Performance og ressursforvaltning
- Støtter PDF-prosessering med flere sider.
- Async APIs muliggjør parallell behandling for batch arbeidsbelastninger.
- Det gir tuningsalternativer for trådbruk og bufferstørrelser.
Eksempel: Utvinning av tekst fra skannede PDF-er
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tips og beste praksis
- Forhåndsbehandling av PDF-er (deskew, despeckle, threshold) for bedre nøyaktighet.
- Bruk layout-analyse for å oppdage tekst og tabeller før ekstraksjon.
- Bruk tillitsgrenser for å validere kritisk innhold.
- Begrense konkurransedyktige OCR-motorer i batchjobber for å forhindre ressurskontraksjon.
- Cache språkpakker og gjenbruker OCR-motorinstanser over flere sider.
Ved å kombinere OCR nøyaktighet, tabelldeteksjon og søkbar PDF-generasjon, Aspose.OCR Scanned PDF to Text for .NET gir en komplett løsning for digitalisering og utvinning av tekst fra skannede PDFer mens opprettholde originale layouter.