Aspose.PDF -tekstinäytteet .NET

Aspose.PDF Text Extractor for .NET on keskittynyt plugin, jonka avulla kehittäjät voivat poistaa puhdasta, raakaa tai tasaista tekstiä PDF-asiakirjoista. se erottaa muotoilun ja graafisten elementtien, joka tarjoaa puhtaan tekstin sisältöä, jota voidaan indeksoida, analysoida tai muuntaa .Net-sovelluksissa.

Aloittaminen

Asennus ja asennus

  • Asennettu Aspose.PDF kautta NuGet tai ladata kokoelmat suoraan.
  • Määritä mitattu lisenssi ennen tuotantoa (katso mitattu lisenssi ).

Ominaisuudet ja toiminnot

Raamatun tekstien poisto

  • Poistaa muuttumattoman luonteen virta jokaisesta sivusta.
  • Säilyttää valkoista tilaa, riviä ja piilotettua tekstiä.
  • Hyödyllinen indeksointiin tai bulk teksti dumps.

Laaja tekstin poisto

  • Normalisoi valkoisen tilan ja linjan lukemisen.
  • Liity lähellä oleva teksti toimii älykkäästi.
  • Epämiellyttävä kirjaimet, grafiikka ja sijainti.

Page ja Range-Based Extraction

  • Poista teksti koko asiakirjasta tai tiettyjen sivujen sarjoista.
  • Vähentää muistin käyttöä rajoittamalla ulottuvuutta.

Alueellista tuotantoa

  • Määritä rektangulaariset alueet (x, y, leveys, korkeus).
  • Vähennä tekstiä otsikoista, jaloista tai sarakkeista.
  • Ihanteellinen rakenteellisille laitteille.

Tekstin suodattaminen ja puhdistaminen

  • Poista ohjausjaksot, tulostamattomat merkit ja ylimääräinen valkoinen tilaa.
  • Valitse teksti merkinnöistä, kentistä tai piilotetuista kerroksista.

Tiedostettu PDF-tuki

  • Avaa salasanan suojattuja PDF-tiedostoja antamalla luottamuksellisia tietoja.
  • Extraction APIs salaa automaattisesti käsittelyn aikana.

Unicode ja Encoding

  • Tuotto UTF-8 tai määritellyssä koodissa.
  • Se tukee monimutkaisia skriptejä, oikea vasemmalle kielelle ja Unicode glyfiä.

suorituskyky ja kilpailu

  • Virta-pohjainen ulostus minimoi muistijälkiä.
  • Thread-Safe APIs mahdollistaa useiden PDF-tiedostojen rinnakkaisen käsittelyn.

Esimerkki koodista: teksti PDF:stä

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Vinkkejä ja parhaita käytäntöjä

  • Valitse tuotantomuoto tarpeisiin perustuen: raaka indeksointiin, tasainen lukemiseen.
  • Vähennä tuotantoa sarjoihin tai alueisiin suorituskyvyn parantamiseksi.
  • Käytä suodattimia aikaisin yksinkertaistamaan jälkeistä käsittelyä.
  • Cache salaa esimerkkejä, kun käytät uudelleen turvallisia PDF-tiedostoja.
  • Tune thread laskee ja buffer kokoja laajamittaisille työnkulkuille.
  • Aseta lisenssi startupissa, jotta vältetään arviointivaroituksia.

Usein kysyttyjä kysymyksiä

**Millaisia kaivosmuotoja tuetaan?**Kolme: raaka, tasainen ja alue-pohjainen kaivos.

**Voinko poistaa tekstin salasanan suojaavista PDF-tiedostoista?**Kyllä, antamalla oikean salasanan tekstiä voidaan poistaa turvallisesti.

**Onko se oikean vasemman ja monimutkaisten kirjoitusten tukemista?**Kyllä, Unicode ja RTL-skriptit (esimerkiksi arabi, heprealainen) ovat täysin tuettuja.

**Miten tämä plugin on erilainen kuin koko Aspose.PDF-kirjasto?**Tämä plugin on kevyt ja optimoitu vain tekstien poistoon, kun taas Aspose.PDF tarjoaa täydellisen PDF-käytön API: n.

  • Onko kaivostoiminta turvallista?Kyllä, toiminnot ovat tiedosto-turvallisia rinnakkaiseen käsittelyyn.
 Suomi