Convertire PDF acquisiti in testo con Aspose.OCR per .NET
Scansione.OCR Scannato Il PDF a Text for .NET consente agli sviluppatori di estrarre il testo dai file PDF scansionati o di converterli in documenti completamente ricercabili. legge qualsiasi layout e stile, definisce accuratamente la struttura del testo e delle tabelle e conserva le immagini originali nel background per la completa conservazione del contenuto.
Installazione e Setup
Per iniziare, installare il pacchetto Aspose.OCR nel vostro progetto .NET tramite NuGet o da un file scaricato localmente Installazione La guida.Prima di chiamare qualsiasi metodo OCR, configurare la licenza misurata come descritto nel Licenza a consumo della documentazione.
Caratteristiche e funzionalità
Extrazione di testo da PDF scansionati
- Legge pagine basate su bitmap e applica OCR per estrarre testo riconoscibile.
- Supporta entrambe le pagine single e multi-pagine di input PDF.
- Esprime fragmenti di testo insieme alla loro posizione, attributi di font e punteggi di fiducia.
OCR accuratezza e manutenzione di layout
- Fornisce motori OCR avanzati per massimizzare l’accuratezza del riconoscimento sulle scansioni di bassa qualità.
- Conserva il flusso di documento: i paragrafi, le colonne e le interruzioni di linea rimangono coerenti con il layout sorgente.
- Fornisce metadati dettagliati di layout in modo che gli sviluppatori possano ricostruire o ri-flow contenuti.
Riconoscimento e estrazione del tavolo
- Detecta automaticamente le strutture della tabella all’interno delle pagine scansionate.
- Esce il contenuto della tabella come righe strutturate e cellule con coordinate della scatola di confine.
- Permette l’esportazione a bassa velocità a CSV, Excel o schemi personalizzati.
Conversione di documenti ricercabili
- Inserisce il testo riconosciuto in PDF come strato invisibile, rendendoli ricercabili senza cambiare l’aspetto.
- Mantiene le immagini scansionate originali per preservare la fedeltà visiva.
Conservazione immagine di sfondo
- Keeps scansione immagini intatte nel background.
- I luoghi riconosciuti del testo si posizionano in cima per la lettura e la stampa senza sguardo.
Parametri di riconoscimento personalizzabili
- Adattare i modi di segmentazione per layout single/multi-column.
- Configurare elenco di caratteri/list neri per il riconoscimento specifico del dominio.
- Risoluzione di controllo, DPI, e filtri pre-processanti (descubbimento, rimozione del rumore, margine).
Supporto multilingue e script
- Riconosce latino, cirillico, greco, cinese, hindi e altro ancora.
- Permette il caricamento dinamico dei pacchetti linguistici.
- Le API consentono di specificare le lingue di riconoscimento primario e secondario per pagina.
Performance e gestione delle risorse
- Supporta il processamento PDF multipagine.
- Le API Async consentono il trattamento parallelo per le caricature di lavoro di pacchetto.
- Fornisce opzioni di tuning per l’uso del filo e le dimensioni del buffer.
Esempio: Estratto di testo da PDF scansionati
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Suggerimenti e migliori pratiche
- Pre-process PDF (descubbimento, distacco, soglia) per una maggiore precisione.
- Utilizzare l’analisi del layout per rilevare testo e tabelle prima dell’estrazione.
- Applicare limiti di fiducia per valutare i contenuti critici.
- Limitare i motori OCR concorrenti nei lavori di batch per prevenire la contenzione delle risorse.
- Cache pacchetti linguistici e riutilizzare gli esempi di motore OCR su più pagine.
Combinando precisione OCR, rilevamento di tabella e generazione di PDF in cerca, Aspose.OCR Scanned PDF to Text for .NET fornisce una soluzione completa per la digitalizzazione e l’estrazione del testo dai PDF scansionati, mantenendo al tempo stesso le layout originali.