Aspose.OCR Scanned PDF till text för .NET

Aspose.OCR Skannad PDF Text för .NET tillåter utvecklare att extrahera text från skannade PDF-filer eller konvertera dem till fullt sökbara dokument. Det läser alla layouter och stil, definierar noggrant strukturen av text och tabeller, och bevarar ursprungliga bilder i bakgrunden för fullständig innehållsbevarande.

Installation och installation

För att börja installera Aspose.OCR-paketet i ditt .NET-projekt via NuGet eller från en lokalt nedladdad fil Installation En guide.Innan du ringer någon OCR-metod, konfigurera måttlig licens som beskrivs i Mätlicensiering och dokumentation.

Funktioner och funktioner

Textutvinning från skannade PDF-filer

  • Läser bitmap-baserade sidor och tillämpar OCR för att extrahera igenkännbar text.
  • Stödjer både en- och flera-sidor PDF-inträde.
  • Exponerar textfragment tillsammans med deras position, font attribut och förtroende poäng.

OCR Precision och Layout Retention

  • Levererar avancerade OCR-motorer för att maximera upptäckts noggrannhet på lågkvalitativa skanningar.
  • Håller dokumentflödet: paragrafer, kolumner och linjeavbrott förblir konsekventa med käll layouten.
  • Det ger detaljerade layoutmetadata så att utvecklare kan rekonstruera eller återflöda innehåll.

Tabell Recognition och Extraction

  • Detekterar automatiskt tabellstrukturer inom scannade sidor.
  • Uttrycker tabellinnehåll som strukturerade rader och celler med gränssnittskontor.
  • Tillåter nedströmsexport till CSV, Excel eller anpassade scheman.

Sökbar dokumentkonvertering

  • Inbäddar igenkänt text tillbaka i PDF-filer som ett osynlig lager, vilket gör dem sökbara utan att ändra utseende.
  • Håller originalskannad bild för att bevara visuell lojalitet.

Bakgrundsbild bevarande

  • Keeps skannade bilder intakt i bakgrunden.
  • Platser erkända text överlämnar på toppen för smidig läsning och utskrift.

Anpassningsbara identifieringsparametrar

  • Anpassa segmentationslägen för single/multi-column layouter.
  • Konfigurera karaktär whitelist/blacklist för domänspecifik identifiering.
  • Kontrollupplösning, DPI och preprocessing-filter (deskew, bulleravlägsnande, tröskel).

Flerspråkig och skriptstöd

  • Känn Latin, Cyrilliska, Grekland, Kinesisk, Hindi och mer.
  • Tillåter dynamisk laddning av språkpaket.
  • APIs låter dig ange primära och sekundära erkännande språk per sida.

Prestanda och resurshantering

  • Stödjer flersidig PDF-behandling.
  • Async APIs möjliggör parallell bearbetning för uppsättning arbetsbelastningar.
  • Tillhandahåller tunningsalternativ för trådanvändning och bufferstorlekar.

Exempel: Att extrahera text från skannade PDF-filer

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips och bästa praxis

  • Preprocess PDF (deskew, despeckle, tröskel) för förbättrad noggrannhet.
  • Använd layoutanalys för att upptäcka text och tabeller före utvinning.
  • Tillämpa tröskelvärden för att validera kritiskt innehåll.
  • Begränsa konkurrenskraftiga OCR-motorer i batchjobb för att förhindra resurskontraktion.
  • Cache språkpaket och återanvända OCR-motorinstanser över flera sidor.

Genom att kombinera OCR noggrannhet, tabelldetektion och sökbar PDF-generation, Aspose.OCR Scanned PDF to Text for .NET ger en komplett lösning för att digitalisera och extrahera text från scannade PDF samtidigt som ursprungliga layouter bevaras.

 Svenska