Aspose.OCR Scanned PDF to Text for .NET
Aspose.OCR skenēts PDF to Text for .NET ļauj izstrādātājiem izrakstīt tekstu no skenētiem PDF failiem vai pārvērst tos pilnībā meklējamiem dokumentiem. tas lasīs jebkuru izkārtojumu un stilu, precīzi nosaka teksta un tabulu struktūru un saglabā oriģinālus attēlus fonā, lai pilnīgi saglabātu saturu.
Instalācija un uzstādīšana
Lai sāktu, instalējiet Aspose.OCR paketi savā .NET projektā, izmantojot NuGet vai no lokāli lejupielādētā faila Installation Vadītājs.Pirms uzaicināt jebkuru OCR metožu, konfigurējiet mērīto licencēšanu, kā aprakstīts Mērtēta licencēšana dokumentācija.
Iezīmes un funkcionalitātes
Teksta ekstrakcija no skenētiem PDF
- Izlasiet bitmap balstītās lapas un piemēro OCR, lai iegūtu atpazīstamu tekstu.
- Atbalsta gan viena lapa, gan vairāku lapu PDF ieejas.
- Eksponē teksta fragmentus kopā ar to pozīciju, burtu atribūtiem un uzticības rādītājiem.
OCR precizitāte un likmes saglabāšana
- Iegūstiet uzlabotus OCR dzinējus, lai maksimāli palielinātu atpazīšanas precizitāti zemas kvalitātes skenēšanā.
- Saglabā dokumentu plūsmu: punkti, kolonnas un līnijas pārtraukumi paliek saskaņoti ar avota izkārtojumu.
- Nodrošina detalizētus izkārtojuma metadatus, lai izstrādātāji varētu rekonstruēt vai pārstrādāt saturu.
Tabulas atpazīšana un ekstrakcija
- Tas automātiski atklāj tabulas struktūras skenētajās lapās.
- Iekļūst tabulas saturs kā strukturētas rindas un šūnas ar saiknes kastes koordinātus.
- Ļauj lejupslīdes eksportu uz CSV, Excel vai pielāgotām shēmām.
Meklējamās dokumentu konversijas
- Ievada atpazīto tekstu atpakaļ PDF kā neredzamu slānis, padarot tos meklējami bez izmaiņām izskata.
- Saglabā oriģinālu skenētu attēlu, lai saglabātu vizuālo lojalitāti.
Fona attēla saglabāšana
- Keeps skenē attēlus intaktā fona.
- Iepazīstamā teksta atrašanās vietas ir uz augšu bezjēdzīgai lasīšanai un drukāšanai.
Personalizētie atpazīšanas parametri
- Iestatīt segmenta režīmus vienai / daudzu kolonnas izkārtojumiem.
- Iestatīt rakstura balto/melno sarakstu, lai domēna specifiskā atpazīšana.
- Kontroles rezolūcija, DPI un pirmsapstrādes filtri (deskw, trokšņa noņemšana, robežvērtība).
Vairāku valodu un skriptu atbalsts
- Atzīt latīņu, ciriliešu, grieķu, ķīniešu, hindi un vairāk.
- Tas ļauj dinamiski uzlādēt valodas paketes.
- APIs ļauj jums noteikt primāro un sekundārās atpazīšanas valodas pēc lapas.
Darbības un resursu pārvaldība
- Atbalsta vairāku lapu PDF apstrādi.
- Async API ļauj paralēli apstrādāt batch darba slodzes.
- Nodrošina tuning iespējas tīkla lietošanai un buferu izmēriem.
Piemērs: Teksta ekstrakcija no skenētiem PDF
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Padomi un labākās prakses
- Preprocesēšana PDF (deskev, deskeva, robežvērtība) uzlabot precizitāti.
- Izmantojiet izkārtojuma analīzi, lai atklātu tekstu un tabulas pirms ekstrakcijas.
- Pielietojiet uzticības robežas, lai validētu kritisko saturu.
- Ierobežo konkurētspējīgus OCR dzinējus batch darbos, lai novērstu resursu aizturēšanu.
- Cache valodas paketes un atkārtoti izmantot OCR motora instancēm vairākās lapās.
Apvienojot OCR precizitāti, tabulas atklāšanu un meklējamu PDF ģenerāciju, Aspose.OCR Scanned PDF to Text for .NET nodrošina pilnīgu risinājumu, lai digitalizētu un ekstraktu tekstu no skenētajiem PDF, saglabājot oriģinālus izkārtojumus.