Aspose.OCR Skanytas PDF į tekstą .NET

Apskritai.OCR skenavimas PDF to Text for .NET leidžia kūrėjams ištraukti tekstą iš skanintų PDF failų arba konvertuoti juos į visiškai paieškos dokumentus. ji skaito bet kokį išdėstymą ir stilių, tiksliai apibrėžia tekstų ir lentelių struktūrą ir išsaugo originalias nuotraukas fone, kad būtų galima visiškai išlaikyti turinį.

Įdiegimas ir nustatymas

Norėdami pradėti, įdiegti Aspose.OCR paketą į savo .NET projektą per NuGet arba iš vietos atsisiunčiamo failo Installation ir vadovas.Prieš skambindami bet kokius OCR metodus, nustatykite matuotą licenciją, kaip aprašyta Išmatuota licencija ir dokumentų.

Savybės ir funkcijos

Teksto ekstrakcija iš skanintų PDF

Jis skaito bitmap pagrįstus puslapius ir taiko OCR, kad gautų atpažįstamą tekstą.
Pagalba tiek vienos puslapių, tiek daugialypės PDF įvedimo.
Eksponuoja teksto fragmentus kartu su jų pozicija, fontų atributus ir pasitikėjimo rezultatus.

OCR tikslumas ir tvarkaraščio išlaikymas

Siunčia pažangius OCR variklius, kad būtų maksimaliai atpažįstama tikslumas žemos kokybės skenavimuose.
Išsaugo dokumentų srautą: skirsniai, stulpeliai ir eilutės pertraukos lieka nuoseklūs su šaltinio išdėstymo.
Jis teikia išsamius išdėstymo metaduomenis, kad kūrėjai galėtų restruktūrizuoti arba perkelti turinį.

Stalo pripažinimas ir ekstrakcija

Automatiškai aptinka lentelės struktūras skanintų puslapių viduje.
Išleidžia lentelės turinį kaip struktūrizuotas eilutes ir ląsteles su ribotos dėžutės koordinatais.
Leidžiama eksportuoti žemyn į CSV, Excel arba pritaikytus schemas.

Paieškos dokumentų konvertavimas

Įterpiamas pripažintas tekstas atgal į PDF kaip nematomas sluoksnis, todėl juos galima ieškoti be pokyčių išvaizda.
Išsaugo originalų skenuojamą vaizdą, kad išsaugotų vizualų ištikimybę.

Tapetų vaizdo išsaugojimas

Keeps nuskaityti vaizdus intaktą fone.
Pripažįstamas tekstas į viršų, kad būtų galima nesąmoningai skaityti ir spausdinti.

Pritaikomi pripažinimo parametrai

Pritaikykite segmentacijos režimus vienam / daugiakolumbiniam dizainui.
Konfigūruokite simbolių baltojo / juodojo sąrašo domenų atpažinimui.
Kontrolės rezoliucija, DPI ir išankstinio apdorojimo filtrai (skala, triukšmo pašalinimas, ribų ribojimas).

Daugiakalbė ir skripto parama

Jis atpažįsta lotynų, cirilės, graikų, kinų ir indų kalbą.
Leidžia dinamiškai įkrauti kalbos paketus.
APIs leidžia jums nurodyti pirminės ir antrinės atpažinimo kalbų per puslapį.

Veiksmingumas ir išteklių valdymas

Palaiko daugialypį PDF apdorojimą.
Async API leidžia lygiagrečiai apdoroti pakuotės darbo apkrovą.
Jis siūlo tinkimo galimybes juostų naudojimui ir buferio dydžiui.

Pavyzdys: teksto šalinimas iš skanintų PDF failų

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Patarimai ir geriausios praktikos

Iš anksto apdorojami PDF failai (skaičiavimas, apdaila, ribos) siekiant pagerinti tikslumą.
Naudokite išdėstymo analizę, kad nustatytumėte tekstą ir lenteles prieš ekstrakciją.
Taikykite pasitikėjimo ribas, kad galėtumėte patvirtinti kritinį turinį.
Apriboti konkurencinius OCR variklius grupės darbo vietose, kad būtų išvengta išteklių susitraukimo.
Cache kalbos pakuotės ir pakartotinai naudoti OCR variklio pavyzdžius per kelias puslapius.

Kombinuojant OCR tikslumą, lentelės aptikimą ir paieškos PDF generavimą, Aspose.OCR Scanned PDF to Text for .NET suteikia išsamią sprendimą skaitymui ir tekstų ekstrakcijai iš skanintų PDF, išlaikant originalius dizainus.