Aspose.OCR skeniran PDF na tekst za .NET

Sljedeći Članak Aspose.OCR skeniran PDF Tekst za .NET omogućuje razvijalcima da izvlače tekst iz skeniranih PDF datoteka ili ih pretvore u potpuno pretraživih dokumenata. čita bilo koji raspored i stil, točno definira strukturu teksta i tablica i čuva originalne slike u pozadini za potpunu zadržavanje sadržaja.

Instaliranje i postavljanje

Da biste počeli, instalirajte Aspose.OCR paket u vaš .NET projekt putem NuGet ili iz lokalno preuzete datoteke instalacija Priručnik.Prije nego što pozovete bilo koje metode OCR-a, konfigurirajte mjerenu licenciju kako je opisano u Mjerena dozvola i dokumentacije.

Značajke i funkcionalnosti

Izvlačenje teksta iz skeniranih PDF-ova

  • Čita stranice koje se temelje na bitmap-u i primjenjuje OCR za ekstrakciju prepoznatljivog teksta.
  • Podržava i jedinstvenu i više stranica PDF ulaz.
  • Izloži tekstne fragmente zajedno s njihovim položajem, znakovima i ocjenama povjerenja.

OCR točnost i zadržavanje rasporeda

  • Nastavi napredne OCR motore kako bi se maksimalno povećala točnost prepoznavanja na niskokvalitetnim skeniranjima.
  • Održavaju protok dokumenta: stavci, stolpci i linije prekida ostaju u skladu s izvornom rasporedom.
  • Pružuje detaljne metapodatke rasporeda kako bi razvijalci mogli rekonstruirati ili ponoviti sadržaj.

Prepoznavanje i ekstrakcija

  • Automatski otkriva stolne strukture unutar skeniranih stranica.
  • Izlazi sadržaj tablice kao strukturirane redove i stanice s koordinacijama kutije.
  • Omogućuje isporuku u CSV, Excel ili prilagođene sheme.

pretvaranje pretraživanja dokumenata

  • Ugrađuje prepoznatljiv tekst nazad u PDF-ove kao nevidljivi sloj, čineći ih pretraživima bez promjene izgleda.
  • Održavaju originalnu skeniranu sliku kako bi se sačuvala vizualna vjernost.

Održavanje pozadine slike

  • Keeps skenira slike netaknute u pozadini.
  • Mjesta prepoznavanog teksta stavljaju se na vrh za bespomoćno čitanje i tiskanje.

Prilagodljivi parametri prepoznavanja

  • Prilagodite načine segmentacije za pojedinačne/multi-kolonske postavke.
  • Konfigurirajte listu znakova/crni list za određeno prepoznavanje domena.
  • Kontrolna rezolucija, DPI i preprocesorski filtri (izbacivanje, uklanjanje buke, ograničavanje).

Podrška za više jezika i skript

  • Prepoznaje latinski, cirilski i grčki, kineski, hindi i još mnogo toga.
  • Omogućuje dinamično punjenje jezičnih paketa.
  • API vam omogućuje da navedete primarni i sekundarni jezik prepoznavanja po stranici.

Učinkovitost i upravljanje resursima

  • Podržava više stranica PDF obrade.
  • Async API omogućuje paralelnu obradu za radna opterećenja.
  • Pružuje opcije tuninga za upotrebu traka i veličine bufera.

Primjer: Izvlačenje teksta iz skeniranih PDF-ova

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Savjeti i najbolje prakse

  • Preprocesni PDF-ovi (deskew, despeckle, threshold) za poboljšanu točnost.
  • Koristite analizu rasporeda za otkrivanje teksta i tablica prije ekstrakcije.
  • Primijenite ograničenja povjerenja kako biste potvrdili kritični sadržaj.
  • Ograničite konkurentne motore OCR-a u radnim mjestima kako biste spriječili kontaminaciju resursa.
  • Cache pakiranje jezika i ponovno korištenje OCR motornih primjera na više stranica.

Kombinacijom točnosti OCR-a, detekcije tablice i pretraživih PDF generacija, Aspose.OCR Scanned PDF to Text for .NET pruža sveobuhvatno rješenje za digitalizaciju i ekstrakciju teksta iz skeniranih PDF-ova dok se čuvaju originalni raspored.

 Hrvatski