Aspose.PDF -tekstinäytteet .NET

Aspose.PDF Text Extractor for .NET on keskittynyt plugin, jonka avulla kehittäjät voivat poistaa puhdasta, raakaa tai tasaista tekstiä PDF Se poistaa muotoilun ja graafiset elementit, joka tarjoaa puhdasta tekstiä sisältöä, jota voidaan indeksoida, analysoida tai muuntaa .NET-sovelluksissa.

Aloittaminen

Asennus ja asennus

  • Asennettu Aspose.PDF kautta NuGet tai ladata kokoelmat suoraan.
  • Määritä mitattu lisenssi ennen tuotantoa (katso mitattu lisenssi ).

Ominaisuudet ja toiminnot

Raamatun tekstien poisto

  • Poistaa muuttumattoman luonteen virta jokaisesta sivusta.
  • Säilyttää valkoista tilaa, riviä ja piilotettua tekstiä.
  • Hyödyllinen indeksointiin tai bulk teksti dumps.

Laaja tekstin poisto

  • Normalisoi valkoisen tilan ja linjan lukemisen.
  • Liity lähellä oleva teksti toimii älykkäästi.
  • Epämiellyttävä kirjaimet, grafiikka ja sijainti.

Page ja Range-Based Extraction

  • Poista teksti koko asiakirjasta tai tiettyjen sivujen sarjoista.
  • Vähentää muistin käyttöä rajoittamalla ulottuvuutta.

Alueellista tuotantoa

  • Määritä rektangulaariset alueet (x, y, leveys, korkeus).
  • Vähennä tekstiä otsikoista, jaloista tai sarakkeista.
  • Ihanteellinen rakenteellisille laitteille.

Tekstin suodattaminen ja puhdistaminen

  • Poista ohjausjaksot, tulostamattomat merkit ja ylimääräinen valkoinen tilaa.
  • Valitse teksti merkinnöistä, kentistä tai piilotetuista kerroksista.

Tiedostettu PDF-tuki

  • Avaa salasanan suojattuja PDF-tiedostoja antamalla luottamuksellisia tietoja.
  • Extraction APIs salaa automaattisesti käsittelyn aikana.

Unicode ja Encoding

  • Tuotto UTF-8 tai määritellyssä koodissa.
  • Se tukee monimutkaisia skriptejä, oikea vasemmalle kielelle ja Unicode glyfiä.

suorituskyky ja kilpailu

  • Virta-pohjainen ulostus minimoi muistijälkiä.
  • Thread-Safe APIs mahdollistaa useiden PDF-tiedostojen rinnakkaisen käsittelyn.

Esimerkki koodista: teksti PDF:stä

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Vinkkejä ja parhaita käytäntöjä

  • Valitse tuotantomuoto tarpeisiin perustuen: raaka indeksointiin, tasainen lukemiseen.
  • Vähennä tuotantoa sarjoihin tai alueisiin suorituskyvyn parantamiseksi.
  • Käytä suodattimia aikaisin yksinkertaistamaan jälkeistä käsittelyä.
  • Cache salaa esimerkkejä, kun käytät uudelleen turvallisia PDF-tiedostoja.
  • Tune thread laskee ja buffer kokoja laajamittaisille työnkulkuille.
  • Aseta lisenssi startupissa, jotta vältetään arviointivaroituksia.

Usein kysyttyjä kysymyksiä

**Millaisia kaivosmuotoja tuetaan?**Kolme: raaka, tasainen ja alue-pohjainen kaivos.

**Voinko poistaa tekstin salasanan suojaavista PDF-tiedostoista?**Kyllä, antamalla oikean salasanan tekstiä voidaan poistaa turvallisesti.

**Onko se oikean vasemman ja monimutkaisten kirjoitusten tukemista?**Kyllä, Unicode ja RTL-skriptit (esimerkiksi arabi, heprealainen) ovat täysin tuettuja.

**Miten tämä plugin on erilainen kuin koko Aspose.PDF-kirjasto?**Tämä plugin on kevyt ja optimoitu vain tekstien poistoon, kun taas Aspose.PDF tarjoaa täydellisen PDF-käytön API: n.

**Onko kaivostoiminta turvallista?**Kyllä, toiminnot ovat tiedosto-turvallisia rinnakkaiseen käsittelyyn.

 Suomi