Aspose.OCR Scanned PDF till text för .NET

Aspose.OCR Skannad PDF Text för .NET tillåter utvecklare att extrahera text från skannade PDF-filer eller konvertera dem till fullt sökbara dokument. Det läser alla layouter och stil, definierar noggrant strukturen av text och tabeller, och bevarar ursprungliga bilder i bakgrunden för fullständig innehållsbevarande.

Installation och installation

För att börja installera Aspose.OCR-paketet i ditt .NET-projekt via NuGet eller från en lokalt nedladdad fil Installation En guide.Innan du ringer någon OCR-metod, konfigurera måttlig licens som beskrivs i Mätlicensiering och dokumentation.

Funktioner och funktioner

Textutvinning från skannade PDF-filer

Läser bitmap-baserade sidor och tillämpar OCR för att extrahera igenkännbar text.
Stödjer både en- och flera-sidor PDF-inträde.
Exponerar textfragment tillsammans med deras position, font attribut och förtroende poäng.

OCR Precision och Layout Retention

Levererar avancerade OCR-motorer för att maximera upptäckts noggrannhet på lågkvalitativa skanningar.
Håller dokumentflödet: paragrafer, kolumner och linjeavbrott förblir konsekventa med käll layouten.
Det ger detaljerade layoutmetadata så att utvecklare kan rekonstruera eller återflöda innehåll.

Tabell Recognition och Extraction

Detekterar automatiskt tabellstrukturer inom scannade sidor.
Uttrycker tabellinnehåll som strukturerade rader och celler med gränssnittskontor.
Tillåter nedströmsexport till CSV, Excel eller anpassade scheman.

Sökbar dokumentkonvertering

Inbäddar igenkänt text tillbaka i PDF-filer som ett osynlig lager, vilket gör dem sökbara utan att ändra utseende.
Håller originalskannad bild för att bevara visuell lojalitet.

Bakgrundsbild bevarande

Keeps skannade bilder intakt i bakgrunden.
Platser erkända text överlämnar på toppen för smidig läsning och utskrift.

Anpassningsbara identifieringsparametrar

Anpassa segmentationslägen för single/multi-column layouter.
Konfigurera karaktär whitelist/blacklist för domänspecifik identifiering.
Kontrollupplösning, DPI och preprocessing-filter (deskew, bulleravlägsnande, tröskel).

Flerspråkig och skriptstöd

Känn Latin, Cyrilliska, Grekland, Kinesisk, Hindi och mer.
Tillåter dynamisk laddning av språkpaket.
APIs låter dig ange primära och sekundära erkännande språk per sida.

Prestanda och resurshantering

Stödjer flersidig PDF-behandling.
Async APIs möjliggör parallell bearbetning för uppsättning arbetsbelastningar.
Tillhandahåller tunningsalternativ för trådanvändning och bufferstorlekar.

Exempel: Att extrahera text från skannade PDF-filer

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Tips och bästa praxis

Preprocess PDF (deskew, despeckle, tröskel) för förbättrad noggrannhet.
Använd layoutanalys för att upptäcka text och tabeller före utvinning.
Tillämpa tröskelvärden för att validera kritiskt innehåll.
Begränsa konkurrenskraftiga OCR-motorer i batchjobb för att förhindra resurskontraktion.
Cache språkpaket och återanvända OCR-motorinstanser över flera sidor.

Genom att kombinera OCR noggrannhet, tabelldetektion och sökbar PDF-generation, Aspose.OCR Scanned PDF to Text for .NET ger en komplett lösning för att digitalisera och extrahera text från scannade PDF samtidigt som ursprungliga layouter bevaras.