Convertire PDF acquisiti in testo con Aspose.OCR per .NET

Scansione.OCR Scannato Il PDF a Text for .NET consente agli sviluppatori di estrarre il testo dai file PDF scansionati o di converterli in documenti completamente ricercabili. legge qualsiasi layout e stile, definisce accuratamente la struttura del testo e delle tabelle e conserva le immagini originali nel background per la completa conservazione del contenuto.

Installazione e Setup

Per iniziare, installare il pacchetto Aspose.OCR nel vostro progetto .NET tramite NuGet o da un file scaricato localmente Installazione La guida.Prima di chiamare qualsiasi metodo OCR, configurare la licenza misurata come descritto nel Licenza a consumo della documentazione.

Caratteristiche e funzionalità

Extrazione di testo da PDF scansionati

  • Legge pagine basate su bitmap e applica OCR per estrarre testo riconoscibile.
  • Supporta entrambe le pagine single e multi-pagine di input PDF.
  • Esprime fragmenti di testo insieme alla loro posizione, attributi di font e punteggi di fiducia.

OCR accuratezza e manutenzione di layout

  • Fornisce motori OCR avanzati per massimizzare l’accuratezza del riconoscimento sulle scansioni di bassa qualità.
  • Conserva il flusso di documento: i paragrafi, le colonne e le interruzioni di linea rimangono coerenti con il layout sorgente.
  • Fornisce metadati dettagliati di layout in modo che gli sviluppatori possano ricostruire o ri-flow contenuti.

Riconoscimento e estrazione del tavolo

  • Detecta automaticamente le strutture della tabella all’interno delle pagine scansionate.
  • Esce il contenuto della tabella come righe strutturate e cellule con coordinate della scatola di confine.
  • Permette l’esportazione a bassa velocità a CSV, Excel o schemi personalizzati.

Conversione di documenti ricercabili

  • Inserisce il testo riconosciuto in PDF come strato invisibile, rendendoli ricercabili senza cambiare l’aspetto.
  • Mantiene le immagini scansionate originali per preservare la fedeltà visiva.

Conservazione immagine di sfondo

  • Keeps scansione immagini intatte nel background.
  • I luoghi riconosciuti del testo si posizionano in cima per la lettura e la stampa senza sguardo.

Parametri di riconoscimento personalizzabili

  • Adattare i modi di segmentazione per layout single/multi-column.
  • Configurare elenco di caratteri/list neri per il riconoscimento specifico del dominio.
  • Risoluzione di controllo, DPI, e filtri pre-processanti (descubbimento, rimozione del rumore, margine).

Supporto multilingue e script

  • Riconosce latino, cirillico, greco, cinese, hindi e altro ancora.
  • Permette il caricamento dinamico dei pacchetti linguistici.
  • Le API consentono di specificare le lingue di riconoscimento primario e secondario per pagina.

Performance e gestione delle risorse

  • Supporta il processamento PDF multipagine.
  • Le API Async consentono il trattamento parallelo per le caricature di lavoro di pacchetto.
  • Fornisce opzioni di tuning per l’uso del filo e le dimensioni del buffer.

Esempio: Estratto di testo da PDF scansionati

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Suggerimenti e migliori pratiche

  • Pre-process PDF (descubbimento, distacco, soglia) per una maggiore precisione.
  • Utilizzare l’analisi del layout per rilevare testo e tabelle prima dell’estrazione.
  • Applicare limiti di fiducia per valutare i contenuti critici.
  • Limitare i motori OCR concorrenti nei lavori di batch per prevenire la contenzione delle risorse.
  • Cache pacchetti linguistici e riutilizzare gli esempi di motore OCR su più pagine.

Combinando precisione OCR, rilevamento di tabella e generazione di PDF in cerca, Aspose.OCR Scanned PDF to Text for .NET fornisce una soluzione completa per la digitalizzazione e l’estrazione del testo dai PDF scansionati, mantenendo al tempo stesso le layout originali.

 Italiano