Aspose.OCR Scanned PDF till text för .NET
Aspose.OCR Skannad PDF Text för .NET tillåter utvecklare att extrahera text från skannade PDF-filer eller konvertera dem till fullt sökbara dokument. Det läser alla layouter och stil, definierar noggrant strukturen av text och tabeller, och bevarar ursprungliga bilder i bakgrunden för fullständig innehållsbevarande.
Installation och installation
För att börja installera Aspose.OCR-paketet i ditt .NET-projekt via NuGet eller från en lokalt nedladdad fil Installation En guide.Innan du ringer någon OCR-metod, konfigurera måttlig licens som beskrivs i Mätlicensiering och dokumentation.
Funktioner och funktioner
Textutvinning från skannade PDF-filer
- Läser bitmap-baserade sidor och tillämpar OCR för att extrahera igenkännbar text.
- Stödjer både en- och flera-sidor PDF-inträde.
- Exponerar textfragment tillsammans med deras position, font attribut och förtroende poäng.
OCR Precision och Layout Retention
- Levererar avancerade OCR-motorer för att maximera upptäckts noggrannhet på lågkvalitativa skanningar.
- Håller dokumentflödet: paragrafer, kolumner och linjeavbrott förblir konsekventa med käll layouten.
- Det ger detaljerade layoutmetadata så att utvecklare kan rekonstruera eller återflöda innehåll.
Tabell Recognition och Extraction
- Detekterar automatiskt tabellstrukturer inom scannade sidor.
- Uttrycker tabellinnehåll som strukturerade rader och celler med gränssnittskontor.
- Tillåter nedströmsexport till CSV, Excel eller anpassade scheman.
Sökbar dokumentkonvertering
- Inbäddar igenkänt text tillbaka i PDF-filer som ett osynlig lager, vilket gör dem sökbara utan att ändra utseende.
- Håller originalskannad bild för att bevara visuell lojalitet.
Bakgrundsbild bevarande
- Keeps skannade bilder intakt i bakgrunden.
- Platser erkända text överlämnar på toppen för smidig läsning och utskrift.
Anpassningsbara identifieringsparametrar
- Anpassa segmentationslägen för single/multi-column layouter.
- Konfigurera karaktär whitelist/blacklist för domänspecifik identifiering.
- Kontrollupplösning, DPI och preprocessing-filter (deskew, bulleravlägsnande, tröskel).
Flerspråkig och skriptstöd
- Känn Latin, Cyrilliska, Grekland, Kinesisk, Hindi och mer.
- Tillåter dynamisk laddning av språkpaket.
- APIs låter dig ange primära och sekundära erkännande språk per sida.
Prestanda och resurshantering
- Stödjer flersidig PDF-behandling.
- Async APIs möjliggör parallell bearbetning för uppsättning arbetsbelastningar.
- Tillhandahåller tunningsalternativ för trådanvändning och bufferstorlekar.
Exempel: Att extrahera text från skannade PDF-filer
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Tips och bästa praxis
- Preprocess PDF (deskew, despeckle, tröskel) för förbättrad noggrannhet.
- Använd layoutanalys för att upptäcka text och tabeller före utvinning.
- Tillämpa tröskelvärden för att validera kritiskt innehåll.
- Begränsa konkurrenskraftiga OCR-motorer i batchjobb för att förhindra resurskontraktion.
- Cache språkpaket och återanvända OCR-motorinstanser över flera sidor.
Genom att kombinera OCR noggrannhet, tabelldetektion och sökbar PDF-generation, Aspose.OCR Scanned PDF to Text for .NET ger en komplett lösning för att digitalisera och extrahera text från scannade PDF samtidigt som ursprungliga layouter bevaras.