Aspose.OCR Scanat PDF la text pentru .NET

Aspose.OCR scanată PDF Text pentru .NET permite dezvoltatorilor să extrage text din fișierele PDF scanate sau să le converteze în documente pe deplin de căutare. citeste orice layout și stil, definește cu precizie structura textului și tabelelor și păstrează imaginile originale în fundal pentru conservarea completă a conținutului.

Instalare și setare

Pentru a începe, instalați pachetul Aspose.OCR în proiectul dvs. .NET prin NuGet sau dintr-un fișier descărcat local Instalare Ghidul.Înainte de a apela la orice metodă OCR, configurați licența măsurată așa cum este descrisă în Licență măsurată în documentare.

Caracteristici și funcții

Extracția textului din PDF-urile scanate

Citiți pagini bazate pe bitmap și aplica OCR pentru a extrage text recunoscut.
Suport atât pentru intrări PDF single-page, cât și pentru mai multe pagini.
Exposă fragmentele textului împreună cu poziția lor, atributele de font și puncte de încredere.

Acuratețea OCR și retenția de layout

Livrați motoare OCR avansate pentru a maximiza precizia recunoașterii la scanările de calitate scăzută.
Menține fluxul de documente: paragrafele, coloanele și rupturile de linie rămân coerente cu layout-ul sursă.
Oferă metadate detaliate de layout, astfel încât dezvoltatorii să poată reconstrui sau reflow conținutul.

Recunoaşterea şi extracţia tabelului

Detectează automat structurile tabelului în interiorul paginilor scanate.
Rezultă conținutul tabelului ca rânduri structurate și celule cu coordonate de cutie de frontieră.
Permite exportul downstream către CSV, Excel sau scheme personalizate.

Conversia documentelor de căutare

Încorporează textul recunoscut înapoi în PDF-uri ca o strată invizibilă, făcându-le căutate fără a schimba aspectul.
Păstrează imagini scanate pentru a păstra fidelitatea vizuală.

Conservarea imaginii de fundal

Keeps scanează imagini intact în fundal.
Locurile de text recunoscut se ridică în partea de sus pentru citirea și imprimarea fără întârziere.

Parametri de recunoaștere personalizate

Ajustarea modurilor de segmentare pentru layoutele single/multi-column.
Configurați lista de caractere / lista neagră pentru recunoașterea specifică domeniului.
Rezoluția de control, DPI și filtrele de prelucrare prealabilă (deschidere, îndepărtare a zgomotului, limitare).

Multilingvism și suport pentru scripturi

Recunoaște latină, cirilică, greacă, chineză, hindusă și multe altele.
Permite încărcarea dinamică a pachetelor lingvistice.
APIs vă permite să specificați limbile de recunoaștere primară și secundară pe pagină.

Performanță și gestionare a resurselor

Suport pentru prelucrarea PDF multi pagini.
Async API permite prelucrarea paralelă a încărcăturilor de lucru.
Oferă opțiuni de tuning pentru utilizarea firului și dimensiunile buferului.

Exemplu: Extractarea textului din PDF scanate

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Sfaturi și cele mai bune practici

Preprocesarea PDF-urilor (descă, descălzire, praguri) pentru o mai bună precizie.
Utilizați analiza de layout pentru a detecta text și tabele înainte de extracție.
Aplicați praguri de încredere pentru a valida conținutul critic.
Limitați motoarele OCR concurențiale în locuri de muncă pentru a preveni contensiunea resurselor.
Cache pachete de limbă și reutilizarea de instante de motor OCR pe mai multe pagini.

Prin combinarea preciziei OCR, a detecției tabelului și a generației de PDF care pot fi căutate, Aspose.OCR Scanned PDF to Text for .NET oferă o soluție completă pentru digitalizarea și extragerea textului din PDF-urile scanate, menținând în același timp layouturile originale.