Aspose.OCR Escanejat PDF a text per a .NET

Càlcul.OCR escanejat PDF a Text per .NET permet als desenvolupadors extreure text de fitxers PDF escanats o convertir-los en documents completament buscables. llegeix qualsevol layout i estil, defineix amb exactitud l’estructura del text i les taules, i conserva les imatges originals en el fons per a la conservació completa del contingut.

Instal·lació i configuració

Per començar, instal·la el paquet Aspose.OCR al teu projecte .NET a través de NuGet o des d’un fitxer descarregat local Instal·lació El guia.Abans de cridar qualsevol mètode OCR, configureu la llicència mesurada com es descriu en el Llicència Metrada la documentació.

Característiques i funcionalitats

Extracció de text de PDFs escanats

Llegeix pàgines basades en bitmap i aplica OCR per extreure text reconegut.
Suporta entrades PDF de pàgines unilaterals i múltiples.
Exposa fragments de text juntament amb la seva posició, atributs de fonts i puntuacions de confiança.

Precisió OCR i retenció de layout

Ofereix motors OCR avançats per maximitzar l’exactitud de reconeixement en escans de baixa qualitat.
Conserva el flux de document: els paràgrafs, les columnes i les pauses de línia es mantenen coherents amb el disseny de la font.
Proporciona metadades de disseny detallades per tal que els desenvolupadors puguin reconstruir o refloure continguts.

Reconeixement de taula i extracció

Detecta automàticament les estructures de taula dins de les pàgines escanejades.
S’extingeix el contingut de la taula com a línies estructurades i cèl·lules amb coordenades de caixa de límit.
Permet l’exportació de baix flux a CSV, Excel o esquemes personalitzats.

Conversió de documents buscables

Embedeix el text reconegut en PDFs com una capa invisible, fent-los buscables sense canviar l’aparença.
Mantenir la imatge escanejada original per preservar la fidelitat visual.

Conservació de la imatge de fons

Keeps escaneja les imatges intactes en el fons.
Llocs de text reconegut sobreplaça en la part superior per a la lectura i la impressió sense segell.

Paràmetres de reconeixement personalitzables

Ajustar els modes de segmentació per a dissenys de columnes singles/multi.
Configureu la blanqueria de caràcters/lista negra per al reconeixement específic de domini.
Resolució de control, DPI, i filtres de preprocessament (desqueig, eliminació del soroll, límit).

Suport multilingüe i script

Reconeix llatí, ciríl·lic, grec, xinès, hindú i més.
Permet la càrrega dinàmica dels paquets de llenguatge.
APIs li permeten especificar els idiomes de reconeixement primari i secundari per pàgina.

Performances i gestió de recursos

Suporta el processament de PDF de múltiples pàgines.
Les API d’Async permeten el processament paral·lel per a càrregues de treball de batxillerat.
Proporciona opcions de tunatge per a l’ús de fil i les mides de buffer.

Exemple: Extracció de text de PDFs escanats

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Consells i millors pràctiques

Preprocés PDFs (descaig, despecle, límit) per a una millor precisió.
Utilitza l’anàlisi de disseny per detectar text i taules abans d’extracció.
Aplica els límits de confiança per validar el contingut crític.
Limitar els motors OCR concurrents en els llocs de treball per prevenir la contenció de recursos.
Cache paquets de llenguatge i reutilitzar els instàncies del motor OCR a través de múltiples pàgines.

En combinar la precisió de l’OCR, la detecció de taula i la generació PDF que es pot buscar, Aspose.ocR Scanned PDF to Text for .NET proporciona una solució completa per digitalitzar i extreure text dels PDFs escanats mentre conserva els dissenys originals.