Aspose.OCR Skannet PDF til tekst for .NET

ASPOSE.OCR Scannert PDF til Text for .NET gjør det mulig for utviklere å trekke tekst fra skannede PDF-filer eller konvertere dem til fullt søkbare dokumenter. Det leser enhver layout og stil, definerer nøyaktig strukturen av tekst og tabeller, og bevarer originale bilder i bakgrunnen for full innholdsbevaring.

Installasjon og installasjon

For å starte, installere Aspose.OCR-pakken i .NET-prosjektet ditt via NuGet eller fra en lokalt nedlastet fil Installation og guide.Før du kaller noen OCR metoder, konfigurere målt lisens som beskrevet i målt lisens og dokumentasjon.

Egenskaper og funksjoner

Tekstutvinning fra skannede PDF-er

  • Leser bitmap-baserte sider og bruker OCR for å ekstrakte gjenkjennelig tekst.
  • Støtter både enkelt- og flere-siders PDF-innføring.
  • Eksponerer tekstfragmenter sammen med deres posisjon, fontattributter og tillit score.

OCR nøyaktighet og layout opprettholdelse

  • Leverer avanserte OCR-motorer for å maksimere gjenkjennings nøyaktighet på lavkvalitets skanninger.
  • Bevar dokumentstrømmen: Paragrafer, kolonner og linjebrudd forblir konsistent med kilde layout.
  • Det gir detaljerte layout metadata slik at utviklere kan rekonstruere eller omflyte innhold.

Tabell anerkjennelse og ekstraksjon

  • Detekterer automatisk tabellstrukturer innenfor skannede sider.
  • Utvinner tabellinnhold som strukturerte rader og celler med bunnboks koordinater.
  • Det gjør det mulig å eksportere downstream til CSV, Excel eller tilpassede diagrammer.

Søkbar dokumentkonvertering

  • Inngår gjenkjent tekst tilbake i PDF-er som et usynlig lag, slik at de kan søkes uten å endre utseendet.
  • Oppbevarer originalskannet bilde for å bevare visuell lojalitet.

Bakgrunnsbilde bevaring

  • Keeps skannede bilder intakt i bakgrunnen.
  • Plasser gjenkjent tekst overlater på toppen for sømløs lesing og utskrift.

Tilpassbare gjenkjennelsesparametre

  • Tilpasse segmentasjonsmodus for single/multi-column layouts.
  • Konfigurer karakter hvitlist/blacklist for domenenespecifik gjenkjennelse.
  • Kontrolloppløsning, DPI, og preprocessing filtre (deskew, støy fjerde, trengsel).

Flerspråklig og skriptstøtte

  • Kjenner Latin, Cyrillic, gresk, kinesisk, hindi, og mer.
  • Det muliggjør dynamisk lading av språkpakker.
  • APIs lar deg angi primære og sekundære gjenkjenningsspråk per side.

Performance og ressursforvaltning

  • Støtter PDF-prosessering med flere sider.
  • Async APIs muliggjør parallell behandling for batch arbeidsbelastninger.
  • Det gir tuningsalternativer for trådbruk og bufferstørrelser.

Eksempel: Utvinning av tekst fra skannede PDF-er

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips og beste praksis

  • Forhåndsbehandling av PDF-er (deskew, despeckle, threshold) for bedre nøyaktighet.
  • Bruk layout-analyse for å oppdage tekst og tabeller før ekstraksjon.
  • Bruk tillitsgrenser for å validere kritisk innhold.
  • Begrense konkurransedyktige OCR-motorer i batchjobber for å forhindre ressurskontraksjon.
  • Cache språkpakker og gjenbruker OCR-motorinstanser over flere sider.

Ved å kombinere OCR nøyaktighet, tabelldeteksjon og søkbar PDF-generasjon, Aspose.OCR Scanned PDF to Text for .NET gir en komplett løsning for digitalisering og utvinning av tekst fra skannede PDFer mens opprettholde originale layouter.

 Norsk