Aspose.OCR Escanejat PDF a text per a .NET
Càlcul.OCR escanejat PDF a Text per .NET permet als desenvolupadors extreure text de fitxers PDF escanats o convertir-los en documents completament buscables. llegeix qualsevol layout i estil, defineix amb exactitud l’estructura del text i les taules, i conserva les imatges originals en el fons per a la conservació completa del contingut.
Instal·lació i configuració
Per començar, instal·la el paquet Aspose.OCR al teu projecte .NET a través de NuGet o des d’un fitxer descarregat local Instal·lació El guia.Abans de cridar qualsevol mètode OCR, configureu la llicència mesurada com es descriu en el Llicència Metrada la documentació.
Característiques i funcionalitats
Extracció de text de PDFs escanats
- Llegeix pàgines basades en bitmap i aplica OCR per extreure text reconegut.
- Suporta entrades PDF de pàgines unilaterals i múltiples.
- Exposa fragments de text juntament amb la seva posició, atributs de fonts i puntuacions de confiança.
Precisió OCR i retenció de layout
- Ofereix motors OCR avançats per maximitzar l’exactitud de reconeixement en escans de baixa qualitat.
- Conserva el flux de document: els paràgrafs, les columnes i les pauses de línia es mantenen coherents amb el disseny de la font.
- Proporciona metadades de disseny detallades per tal que els desenvolupadors puguin reconstruir o refloure continguts.
Reconeixement de taula i extracció
- Detecta automàticament les estructures de taula dins de les pàgines escanejades.
- S’extingeix el contingut de la taula com a línies estructurades i cèl·lules amb coordenades de caixa de límit.
- Permet l’exportació de baix flux a CSV, Excel o esquemes personalitzats.
Conversió de documents buscables
- Embedeix el text reconegut en PDFs com una capa invisible, fent-los buscables sense canviar l’aparença.
- Mantenir la imatge escanejada original per preservar la fidelitat visual.
Conservació de la imatge de fons
- Keeps escaneja les imatges intactes en el fons.
- Llocs de text reconegut sobreplaça en la part superior per a la lectura i la impressió sense segell.
Paràmetres de reconeixement personalitzables
- Ajustar els modes de segmentació per a dissenys de columnes singles/multi.
- Configureu la blanqueria de caràcters/lista negra per al reconeixement específic de domini.
- Resolució de control, DPI, i filtres de preprocessament (desqueig, eliminació del soroll, límit).
Suport multilingüe i script
- Reconeix llatí, ciríl·lic, grec, xinès, hindú i més.
- Permet la càrrega dinàmica dels paquets de llenguatge.
- APIs li permeten especificar els idiomes de reconeixement primari i secundari per pàgina.
Performances i gestió de recursos
- Suporta el processament de PDF de múltiples pàgines.
- Les API d’Async permeten el processament paral·lel per a càrregues de treball de batxillerat.
- Proporciona opcions de tunatge per a l’ús de fil i les mides de buffer.
Exemple: Extracció de text de PDFs escanats
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Consells i millors pràctiques
- Preprocés PDFs (descaig, despecle, límit) per a una millor precisió.
- Utilitza l’anàlisi de disseny per detectar text i taules abans d’extracció.
- Aplica els límits de confiança per validar el contingut crític.
- Limitar els motors OCR concurrents en els llocs de treball per prevenir la contenció de recursos.
- Cache paquets de llenguatge i reutilitzar els instàncies del motor OCR a través de múltiples pàgines.
En combinar la precisió de l’OCR, la detecció de taula i la generació PDF que es pot buscar, Aspose.ocR Scanned PDF to Text for .NET proporciona una solució completa per digitalitzar i extreure text dels PDFs escanats mentre conserva els dissenys originals.