Aspose.PDF teksto ekstraktorius .NET

Aspose.PDF teksto ekstraktorius .NET yra sutelktas įrankis, leidžiantis kūrėjams iš PDF dokumentų ištraukti gryną, žalią ar plokščią tekstą. Jis pašalina formatavimą ir grafinius elementus, suteikiant švarų tekstinį turinį, kuris gali būti indeksuojamas, analizuotas arba perdirbtas į .Net programas.

pradėti

Įdiegimas ir nustatymas

  • Install Aspose.PDF per NuGet arba tiesiogiai atsisiųsti susirinkimus.
  • Nustatykite matuotą licenciją prieš ekstrakciją (žr. Išmatuota licencija ).

Savybės ir funkcijos

Raudonųjų tekstų ekstrakcija

  • Iš kiekvieno puslapio ištraukiamas nesikeitęs charakterio srautas.
  • Išsaugo baltą erdvę, eilutės lūžius ir paslėptą tekstą.
  • Naudinga indeksavimui arba daugiafunkciniams tekstams.

Paprastas tekstas ekstrakcija

  • Normalizuoja baltojo erdvės ir linijų lūžius skaityti.
  • Prisijunkite prie artėjančio teksto veikia protingai.
  • Nepamirškite fontų, grafikos ir pozicionavimo.

Page ir Range-Based Extraction

  • Išimkite tekstą iš visų dokumentų ar konkrečių puslapio juostų.
  • Sumažina atminties naudojimą ribojant apimtį.

Regioninė ekstrakcija

  • Nurodykite rektangulinius regionus (x, y, plotis, aukštis).
  • Išimkite tekstą iš antklodžių, pėdų ar stulpelių.
  • Idealiai tinka struktūrizuotiems dizainams.

Teksto filtravimas ir valymas

  • Pašalinti kontrolės sekas, ne spausdinami simbolius ir papildomą baltąją erdvę.
  • Pasirinktinai pašalinti tekstą iš nuorodų, laukų ar paslėptų sluoksnių.

Šifruotas PDF palaikymas

  • Atsisiųskite slaptažodžiu apsaugotus PDF dokumentus, pateikiant patvirtinimus.
  • Ekstrakcijos API automatiškai iššifruojami apdorojimo metu.

Unicode ir kodavimas

  • Išleidimas UTF-8 arba nurodytomis kodavimo priemonėmis.
  • Palaiko sudėtingus scenarijus, dešinę į kairę kalbą ir Unicode grifus.

Veiksmingumas ir konkurencija

  • Ekstrakcija, pagrįsta srautu, sumažina atminties pėdsaką.
  • Thread-safe API leidžia lygiagrečiai apdoroti kelis PDF failus.

Kodo pavyzdys: teksto ekstrakcija iš PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Patarimai ir geriausios praktikos

  • Pasirinkite ekstrakcijos režimą remiantis poreikiais: žalia indeksuoti, plokščia skaityti.
  • Apribokite ekstrakciją į plotus ar regionus, kad pagerintumėte našumą.
  • Naudokite filtrus anksti, kad supaprastintumėte po apdorojimo.
  • Išsaugoti iššifruotus atvejus, kai pakartotinai naudojami saugių PDF.
  • Tune juostos skaičiuoja ir buferio dydį didelio masto darbo srautams.
  • Nustatykite licenciją „Startup“, kad išvengtumėte vertinimo įspėjimų.

Dažnai užduodami klausimai

**Kokius ekstrakcijos būdus palaiko?**Trys: žalia, plokščia ir regioninė ekstrakcija.

**Ar galiu ištrinti tekstą iš slaptažodžiu apsaugotų PDF?**Taip, pateikiant teisingą slaptažodį, tekstas gali būti saugiai ištraukiamas.

** Ar ji palaiko dešinę į kairę ir sudėtingus scenarijus?**Taip, Unicode ir RTL scenarijai (pavyzdžiui, arabų, hebrajų) yra visiškai palaikomi.

**Kaip šis priedas skiriasi nuo visos Aspose.PDF bibliotekos?**Šis priedas yra lengvas ir optimizuotas tik teksto ekstrakcijai, o Aspose.PDF suteikia pilną PDF manipuliavimo API.

** Ar ekstrakcija yra saugi?**Taip, operacijos yra spinduliai saugios dokumentų lygmeniu lygiagrečiai apdoroti.

 Lietuvių