Aspose.OCR Escanejat PDF a text per a .NET

Càlcul.OCR escanejat PDF a Text per .NET permet als desenvolupadors extreure text de fitxers PDF escanats o convertir-los en documents completament buscables. llegeix qualsevol layout i estil, defineix amb exactitud l’estructura del text i les taules, i conserva les imatges originals en el fons per a la conservació completa del contingut.

Instal·lació i configuració

Per començar, instal·la el paquet Aspose.OCR al teu projecte .NET a través de NuGet o des d’un fitxer descarregat local Instal·lació El guia.Abans de cridar qualsevol mètode OCR, configureu la llicència mesurada com es descriu en el Llicència Metrada la documentació.

Característiques i funcionalitats

Extracció de text de PDFs escanats

  • Llegeix pàgines basades en bitmap i aplica OCR per extreure text reconegut.
  • Suporta entrades PDF de pàgines unilaterals i múltiples.
  • Exposa fragments de text juntament amb la seva posició, atributs de fonts i puntuacions de confiança.

Precisió OCR i retenció de layout

  • Ofereix motors OCR avançats per maximitzar l’exactitud de reconeixement en escans de baixa qualitat.
  • Conserva el flux de document: els paràgrafs, les columnes i les pauses de línia es mantenen coherents amb el disseny de la font.
  • Proporciona metadades de disseny detallades per tal que els desenvolupadors puguin reconstruir o refloure continguts.

Reconeixement de taula i extracció

  • Detecta automàticament les estructures de taula dins de les pàgines escanejades.
  • S’extingeix el contingut de la taula com a línies estructurades i cèl·lules amb coordenades de caixa de límit.
  • Permet l’exportació de baix flux a CSV, Excel o esquemes personalitzats.

Conversió de documents buscables

  • Embedeix el text reconegut en PDFs com una capa invisible, fent-los buscables sense canviar l’aparença.
  • Mantenir la imatge escanejada original per preservar la fidelitat visual.

Conservació de la imatge de fons

  • Keeps escaneja les imatges intactes en el fons.
  • Llocs de text reconegut sobreplaça en la part superior per a la lectura i la impressió sense segell.

Paràmetres de reconeixement personalitzables

  • Ajustar els modes de segmentació per a dissenys de columnes singles/multi.
  • Configureu la blanqueria de caràcters/lista negra per al reconeixement específic de domini.
  • Resolució de control, DPI, i filtres de preprocessament (desqueig, eliminació del soroll, límit).

Suport multilingüe i script

  • Reconeix llatí, ciríl·lic, grec, xinès, hindú i més.
  • Permet la càrrega dinàmica dels paquets de llenguatge.
  • APIs li permeten especificar els idiomes de reconeixement primari i secundari per pàgina.

Performances i gestió de recursos

  • Suporta el processament de PDF de múltiples pàgines.
  • Les API d’Async permeten el processament paral·lel per a càrregues de treball de batxillerat.
  • Proporciona opcions de tunatge per a l’ús de fil i les mides de buffer.

Exemple: Extracció de text de PDFs escanats

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Consells i millors pràctiques

  • Preprocés PDFs (descaig, despecle, límit) per a una millor precisió.
  • Utilitza l’anàlisi de disseny per detectar text i taules abans d’extracció.
  • Aplica els límits de confiança per validar el contingut crític.
  • Limitar els motors OCR concurrents en els llocs de treball per prevenir la contenció de recursos.
  • Cache paquets de llenguatge i reutilitzar els instàncies del motor OCR a través de múltiples pàgines.

En combinar la precisió de l’OCR, la detecció de taula i la generació PDF que es pot buscar, Aspose.ocR Scanned PDF to Text for .NET proporciona una solució completa per digitalitzar i extreure text dels PDFs escanats mentre conserva els dissenys originals.

 Català