Aspose.PDF -tekstinäytteet .NET
Aspose.PDF Text Extractor for .NET on keskittynyt plugin, jonka avulla kehittäjät voivat poistaa puhdasta, raakaa tai tasaista tekstiä PDF-asiakirjoista. se erottaa muotoilun ja graafisten elementtien, joka tarjoaa puhtaan tekstin sisältöä, jota voidaan indeksoida, analysoida tai muuntaa .Net-sovelluksissa.
Aloittaminen
Asennus ja asennus
- Asennettu
Aspose.PDF
kautta NuGet tai ladata kokoelmat suoraan. - Määritä mitattu lisenssi ennen tuotantoa (katso mitattu lisenssi ).
Ominaisuudet ja toiminnot
Raamatun tekstien poisto
- Poistaa muuttumattoman luonteen virta jokaisesta sivusta.
- Säilyttää valkoista tilaa, riviä ja piilotettua tekstiä.
- Hyödyllinen indeksointiin tai bulk teksti dumps.
Laaja tekstin poisto
- Normalisoi valkoisen tilan ja linjan lukemisen.
- Liity lähellä oleva teksti toimii älykkäästi.
- Epämiellyttävä kirjaimet, grafiikka ja sijainti.
Page ja Range-Based Extraction
- Poista teksti koko asiakirjasta tai tiettyjen sivujen sarjoista.
- Vähentää muistin käyttöä rajoittamalla ulottuvuutta.
Alueellista tuotantoa
- Määritä rektangulaariset alueet (x, y, leveys, korkeus).
- Vähennä tekstiä otsikoista, jaloista tai sarakkeista.
- Ihanteellinen rakenteellisille laitteille.
Tekstin suodattaminen ja puhdistaminen
- Poista ohjausjaksot, tulostamattomat merkit ja ylimääräinen valkoinen tilaa.
- Valitse teksti merkinnöistä, kentistä tai piilotetuista kerroksista.
Tiedostettu PDF-tuki
- Avaa salasanan suojattuja PDF-tiedostoja antamalla luottamuksellisia tietoja.
- Extraction APIs salaa automaattisesti käsittelyn aikana.
Unicode ja Encoding
- Tuotto UTF-8 tai määritellyssä koodissa.
- Se tukee monimutkaisia skriptejä, oikea vasemmalle kielelle ja Unicode glyfiä.
suorituskyky ja kilpailu
- Virta-pohjainen ulostus minimoi muistijälkiä.
- Thread-Safe APIs mahdollistaa useiden PDF-tiedostojen rinnakkaisen käsittelyn.
Esimerkki koodista: teksti PDF:stä
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Vinkkejä ja parhaita käytäntöjä
- Valitse tuotantomuoto tarpeisiin perustuen: raaka indeksointiin, tasainen lukemiseen.
- Vähennä tuotantoa sarjoihin tai alueisiin suorituskyvyn parantamiseksi.
- Käytä suodattimia aikaisin yksinkertaistamaan jälkeistä käsittelyä.
- Cache salaa esimerkkejä, kun käytät uudelleen turvallisia PDF-tiedostoja.
- Tune thread laskee ja buffer kokoja laajamittaisille työnkulkuille.
- Aseta lisenssi startupissa, jotta vältetään arviointivaroituksia.
Usein kysyttyjä kysymyksiä
**Millaisia kaivosmuotoja tuetaan?**Kolme: raaka, tasainen ja alue-pohjainen kaivos.
**Voinko poistaa tekstin salasanan suojaavista PDF-tiedostoista?**Kyllä, antamalla oikean salasanan tekstiä voidaan poistaa turvallisesti.
**Onko se oikean vasemman ja monimutkaisten kirjoitusten tukemista?**Kyllä, Unicode ja RTL-skriptit (esimerkiksi arabi, heprealainen) ovat täysin tuettuja.
**Miten tämä plugin on erilainen kuin koko Aspose.PDF-kirjasto?**Tämä plugin on kevyt ja optimoitu vain tekstien poistoon, kun taas Aspose.PDF tarjoaa täydellisen PDF-käytön API: n.
- Onko kaivostoiminta turvallista?Kyllä, toiminnot ovat tiedosto-turvallisia rinnakkaiseen käsittelyyn.