Aspose.OCR Scannen PDF naar tekst voor .NET

Aspose.OCR gescanneld PDF to Text for .NET stelt ontwikkelaars in staat tekst uit gescannelde PDF-bestanden te extraheren of ze om te zetten in volledig zoektochtbare documenten. het leest elke layout en stijl, bepaalt nauwkeurig de structuur van tekst en tabellen, en behoudt originele afbeeldingen in de achtergrond voor volledige contentbehoud.

Installatie en Setup

Om te beginnen, installeer het Aspose.OCR-pakket in uw .NET-project via NuGet of vanuit een lokaal gedownload bestand Installatie De gids.Voordat u een OCR-methode noemt, installeer de gemeten licentie zoals beschreven in de gemeten licentie De documentatie.

Features en functionaliteiten

Text Extractie van gescannelde PDF’s

  • Het leest pagina’s op basis van bitmap en toepast OCR om herkenbare tekst te extraheren.
  • Ondersteunt zowel een-pagina als meerdere pagina’s PDF-input.
  • Exposeert tekstfragmenten samen met hun positie, fontattributen en vertrouwenscores.

OCR Precision en Layout Retentie

  • Leveren geavanceerde OCR-motoren om de herkenningsauwkeurigheid op laagwaardige scans te maximaliseren.
  • Behoudt de documentstromen: paragrafen, kolommen en lijnbreuken blijven consistent met de bronlijst.
  • Het biedt gedetailleerde layoutmetadata zodat ontwikkelaars inhoud kunnen reconstrueren of herstructureren.

Tabel herkenning en extractie

  • Automatisch detecteert tabelstructuur binnen gescannelde pagina’s.
  • Afkomt tabelinhoud als gestructureerde lijnen en cellen met bounding box coördinaten.
  • U kunt downstream exporten naar CSV, Excel of aangepaste schema’s.

Zoekbare documentconversie

  • Bevat herkend tekst terug in PDF’s als een onzichtbare laag, waardoor ze te zoeken zonder het uiterlijk te veranderen.
  • Het behoudt originele gescannelde afbeeldingen om visueel trouw te behouden.

Achtergrond beeld behoud

  • Keeps gescandeerde beelden intact in de achtergrond.
  • Plaats geïdentificeerde tekst overlijden op de top voor onbeperkt lezen en afdrukken.

Aanpassbare erkenningsparameters

  • Aanpassen van segmentatiemodus voor single/multi-column layouts.
  • Configureer karakterwitlijst/blacklist voor domeinspecifieke herkenning.
  • Controle-resolutie, DPI en pre-processing filters (deskew, lawaai verwijderen, thresholding).

Multi-Language en Script Support

  • Herken Latijns, Cyrillisch, Grieks, Chinees, Hindi en meer.
  • Dit zorgt voor een dynamische lading van taalpakketten.
  • APIs laten u de primaire en secundaire herkennen talen per pagina specificeren.

Performance en Resource Management

  • Ondersteunt meerdere pagina’s PDF-verwerking.
  • Async API’s zorgen voor parallelle verwerking voor de werkloads.
  • Het biedt toningsopties voor draadgebruik en buffergrootte.

Voorbeeld: Het extraheren van tekst uit gescannelde PDF’s

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips en beste praktijken

  • Preprocess PDF’s (deskew, despeckle, threshold) voor verbeterde nauwkeurigheid.
  • Gebruik layout-analyse om tekst en tabellen te detecteren vóór de extractie.
  • Gebruik vertrouwensgrenzen om kritische inhoud te valideren.
  • Beperk concurrerende OCR-motoren in batch jobs om resource contentie te voorkomen.
  • Cache-taalpakketten en hergebruik OCR-motorinstanties over meerdere pagina’s.

Door OCR precisie, tabeldetectie en zoekbare PDF-generatie te combineren, Aspose.OCR Scanned PDF to Text for .NET biedt een complete oplossing voor het digitaliseren en extraheren van tekst uit gescande PDF’s terwijl de oorspronkelijke layouts worden bewaard.

 Nederlands