Convertire PDF acquisiti in testo con Aspose.OCR per .NET

Scansione.OCR Scannato Il PDF a Text for .NET consente agli sviluppatori di estrarre il testo dai file PDF scansionati o di converterli in documenti completamente ricercabili. legge qualsiasi layout e stile, definisce accuratamente la struttura del testo e delle tabelle e conserva le immagini originali nel background per la completa conservazione del contenuto.

Installazione e Setup

Per iniziare, installare il pacchetto Aspose.OCR nel vostro progetto .NET tramite NuGet o da un file scaricato localmente Installazione La guida.Prima di chiamare qualsiasi metodo OCR, configurare la licenza misurata come descritto nel Licenza a consumo della documentazione.

Caratteristiche e funzionalità

Extrazione di testo da PDF scansionati

Legge pagine basate su bitmap e applica OCR per estrarre testo riconoscibile.
Supporta entrambe le pagine single e multi-pagine di input PDF.
Esprime fragmenti di testo insieme alla loro posizione, attributi di font e punteggi di fiducia.

OCR accuratezza e manutenzione di layout

Fornisce motori OCR avanzati per massimizzare l’accuratezza del riconoscimento sulle scansioni di bassa qualità.
Conserva il flusso di documento: i paragrafi, le colonne e le interruzioni di linea rimangono coerenti con il layout sorgente.
Fornisce metadati dettagliati di layout in modo che gli sviluppatori possano ricostruire o ri-flow contenuti.

Riconoscimento e estrazione del tavolo

Detecta automaticamente le strutture della tabella all’interno delle pagine scansionate.
Esce il contenuto della tabella come righe strutturate e cellule con coordinate della scatola di confine.
Permette l’esportazione a bassa velocità a CSV, Excel o schemi personalizzati.

Conversione di documenti ricercabili

Inserisce il testo riconosciuto in PDF come strato invisibile, rendendoli ricercabili senza cambiare l’aspetto.
Mantiene le immagini scansionate originali per preservare la fedeltà visiva.

Conservazione immagine di sfondo

Keeps scansione immagini intatte nel background.
I luoghi riconosciuti del testo si posizionano in cima per la lettura e la stampa senza sguardo.

Parametri di riconoscimento personalizzabili

Adattare i modi di segmentazione per layout single/multi-column.
Configurare elenco di caratteri/list neri per il riconoscimento specifico del dominio.
Risoluzione di controllo, DPI, e filtri pre-processanti (descubbimento, rimozione del rumore, margine).

Supporto multilingue e script

Riconosce latino, cirillico, greco, cinese, hindi e altro ancora.
Permette il caricamento dinamico dei pacchetti linguistici.
Le API consentono di specificare le lingue di riconoscimento primario e secondario per pagina.

Performance e gestione delle risorse

Supporta il processamento PDF multipagine.
Le API Async consentono il trattamento parallelo per le caricature di lavoro di pacchetto.
Fornisce opzioni di tuning per l’uso del filo e le dimensioni del buffer.

Esempio: Estratto di testo da PDF scansionati

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Suggerimenti e migliori pratiche

Pre-process PDF (descubbimento, distacco, soglia) per una maggiore precisione.
Utilizzare l’analisi del layout per rilevare testo e tabelle prima dell’estrazione.
Applicare limiti di fiducia per valutare i contenuti critici.
Limitare i motori OCR concorrenti nei lavori di batch per prevenire la contenzione delle risorse.
Cache pacchetti linguistici e riutilizzare gli esempi di motore OCR su più pagine.

Combinando precisione OCR, rilevamento di tabella e generazione di PDF in cerca, Aspose.OCR Scanned PDF to Text for .NET fornisce una soluzione completa per la digitalizzazione e l’estrazione del testo dai PDF scansionati, mantenendo al tempo stesso le layout originali.