Aspose.OCR Skannattu PDF-tiedosto tekstiin .NET

Aspose.OCR Skannattu PDF to Text for .NET antaa kehittäjille mahdollisuuden poistaa tekstiä skannatuista PDF-tiedostoista tai muuntaa ne kokonaan hakuviksi asiakirjoiksi. se lukee minkä tahansa järjestyksen ja tyylin, määrittää tarkasti tekstin ja taulukoiden rakenteen ja säilyttää alkuperäiset kuvat taustaan täydellisen sisällön säilyttämiseksi.

Asennus ja asennus

Aloita, asenna Aspose.OCR-paketti .NET-hankkeeseesi NuGetin kautta tai paikallisesti lataamasta tiedostosta asennuksen Ja opas.Ennen kuin soitat mitään OCR-menetelmiä, asettaa mitattu lisenssi sellaisena kuin se on kuvattu mitattu lisenssi ja dokumentaatiota.

Ominaisuudet ja toiminnot

Tekstin poisto skannatuista PDF-tiedostoista

Lukee bitmap-pohjaisia sivuja ja soveltaa OCR:tä tunnistettavan tekstin tuottamiseen.
Se tukee sekä yhden sivun että monivaiheisen PDF-tuloksen.
Esittelee tekstifragmenteja sekä niiden sijainnin, kirjaimen ominaisuuksia ja luottamuksellisia pisteitä.

OCR:n tarkkuus ja layout säilyttäminen

Tarjoamme kehittyneitä OCR-moottoreita, joilla maksimoidaan tunnistuksen tarkkuus vähälaatuisissa skannauksissa.
Säilyttää asiakirjan virta: kappaleet, sarakkeet ja riviä pysyvät johdonmukaisina lähdekoodin kanssa.
Tarjoaa yksityiskohtaisia asetuksen metatietoja, jotta kehittäjät voivat rakentaa tai uudelleen virtaa sisältöä.

Taulukon tunnistaminen ja kaivaminen

Se havaitsee automaattisesti taulukon rakenteet skannattujen sivujen sisällä.
Tuottaa taulukon sisältöä rakenteellisina rivinä ja soluina, joilla on rajatut kenttäkoordinaatit.
Se mahdollistaa alhaisen virran viennin CSV:een, Excelin tai räätälöityihin kaavoihin.

Hakuva asiakirjan muuntaminen

Sisältää tunnistetun tekstin takaisin PDF-tiedostoihin näkymättömänä kerroksena, jolloin ne voidaan etsiä muuttamatta ulkonäköä.
Se säilyttää alkuperäisen skannatun kuvan visuaalisen uskollisuuden säilyttämiseksi.

Taustan kuvan säilyttäminen

Keeps skannata kuvia intact taustalla.
Paikat tunnustettu teksti ylittää yläkerran lukemiseen ja tulostamiseen.

Yksityiskohtaiset tunnistamisparametrit

Sekoita segmentatiiviset tilat yksittäisille / monikerroksisille asetuksille.
Määritä luettelon/punainen luettelo verkkotunnuksen tunnistamiseksi.
Valvonta resoluutio, DPI, ja ennakkoprosessointi suodattimet (kuivaus, melun poistaminen, kynnysarvo).

Monikielinen ja skripti tuki

Tunnistaa latinan, kirillisen, kreikan, kiinalainen, hindi ja paljon muuta.
Se mahdollistaa kielipakkausten dynaamisen lataamisen.
API: n avulla voit määrittää ensisijaiset ja toissijaiset tunnistuskielet sivulta.

suorituskyky ja resurssien hallinta

Tukee monivuotista PDF-käsittelyä.
Async APIs mahdollistaa samanaikaisen käsittelyn pakettiaikoille.
Tarjoaa tuning vaihtoehtoja tiivisteen käyttöä ja buffer-kokoja varten.

Esimerkki: Tekstin poistaminen skannatuista PDF-tiedostoista

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Vinkkejä ja parhaita käytäntöjä

Ennalta käsiteltävät PDF-tiedostot (leikkaus, purkaminen, kynnysarvo) parantamaan tarkkuutta.
Käytä asetuksen analyysiä tekstin ja taulukoiden havaitsemiseksi ennen poistoa.
Soveltaa luottamusrajoja kriittisen sisällön vahvistamiseen.
Rajoita kilpailukykyisiä OCR-moottoreita joukkotehtävissä, jotta vältetään resurssien väheneminen.
Cache-kielen pakkaukset ja OCR-moottorin tapausten uudelleenkäyttö useilla sivuilla.

Yhdistämällä OCR: n tarkkuuden, taulukon havaitsemisen ja hakukyvyn PDF-tuotannon, Aspose.OCR Scanned PDF to Text for .NET tarjoaa täydellisen ratkaisun skannattujen PDF:ien tekstin digitointiin ja poistoon säilyttäen alkuperäiset asetukset.