Aspose.OCR skeniran PDF na tekst za .NET
Sljedeći Članak Aspose.OCR skeniran PDF Tekst za .NET omogućuje razvijalcima da izvlače tekst iz skeniranih PDF datoteka ili ih pretvore u potpuno pretraživih dokumenata. čita bilo koji raspored i stil, točno definira strukturu teksta i tablica i čuva originalne slike u pozadini za potpunu zadržavanje sadržaja.
Instaliranje i postavljanje
Da biste počeli, instalirajte Aspose.OCR paket u vaš .NET projekt putem NuGet ili iz lokalno preuzete datoteke instalacija Priručnik.Prije nego što pozovete bilo koje metode OCR-a, konfigurirajte mjerenu licenciju kako je opisano u Mjerena dozvola i dokumentacije.
Značajke i funkcionalnosti
Izvlačenje teksta iz skeniranih PDF-ova
- Čita stranice koje se temelje na bitmap-u i primjenjuje OCR za ekstrakciju prepoznatljivog teksta.
- Podržava i jedinstvenu i više stranica PDF ulaz.
- Izloži tekstne fragmente zajedno s njihovim položajem, znakovima i ocjenama povjerenja.
OCR točnost i zadržavanje rasporeda
- Nastavi napredne OCR motore kako bi se maksimalno povećala točnost prepoznavanja na niskokvalitetnim skeniranjima.
- Održavaju protok dokumenta: stavci, stolpci i linije prekida ostaju u skladu s izvornom rasporedom.
- Pružuje detaljne metapodatke rasporeda kako bi razvijalci mogli rekonstruirati ili ponoviti sadržaj.
Prepoznavanje i ekstrakcija
- Automatski otkriva stolne strukture unutar skeniranih stranica.
- Izlazi sadržaj tablice kao strukturirane redove i stanice s koordinacijama kutije.
- Omogućuje isporuku u CSV, Excel ili prilagođene sheme.
pretvaranje pretraživanja dokumenata
- Ugrađuje prepoznatljiv tekst nazad u PDF-ove kao nevidljivi sloj, čineći ih pretraživima bez promjene izgleda.
- Održavaju originalnu skeniranu sliku kako bi se sačuvala vizualna vjernost.
Održavanje pozadine slike
- Keeps skenira slike netaknute u pozadini.
- Mjesta prepoznavanog teksta stavljaju se na vrh za bespomoćno čitanje i tiskanje.
Prilagodljivi parametri prepoznavanja
- Prilagodite načine segmentacije za pojedinačne/multi-kolonske postavke.
- Konfigurirajte listu znakova/crni list za određeno prepoznavanje domena.
- Kontrolna rezolucija, DPI i preprocesorski filtri (izbacivanje, uklanjanje buke, ograničavanje).
Podrška za više jezika i skript
- Prepoznaje latinski, cirilski i grčki, kineski, hindi i još mnogo toga.
- Omogućuje dinamično punjenje jezičnih paketa.
- API vam omogućuje da navedete primarni i sekundarni jezik prepoznavanja po stranici.
Učinkovitost i upravljanje resursima
- Podržava više stranica PDF obrade.
- Async API omogućuje paralelnu obradu za radna opterećenja.
- Pružuje opcije tuninga za upotrebu traka i veličine bufera.
Primjer: Izvlačenje teksta iz skeniranih PDF-ova
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Savjeti i najbolje prakse
- Preprocesni PDF-ovi (deskew, despeckle, threshold) za poboljšanu točnost.
- Koristite analizu rasporeda za otkrivanje teksta i tablica prije ekstrakcije.
- Primijenite ograničenja povjerenja kako biste potvrdili kritični sadržaj.
- Ograničite konkurentne motore OCR-a u radnim mjestima kako biste spriječili kontaminaciju resursa.
- Cache pakiranje jezika i ponovno korištenje OCR motornih primjera na više stranica.
Kombinacijom točnosti OCR-a, detekcije tablice i pretraživih PDF generacija, Aspose.OCR Scanned PDF to Text for .NET pruža sveobuhvatno rješenje za digitalizaciju i ekstrakciju teksta iz skeniranih PDF-ova dok se čuvaju originalni raspored.