Aspose.PDF teksto ekstraktorius .NET

Aspose.PDF teksto ekstraktorius .NET yra sutelktas priedas, kuris leidžia kūrėjams ištraukti gryną, žalią ar plokščią tekstą iš PDF Jis išskiria formatavimą ir grafinius elementus, suteikiant švarų tekstinį turinį, kurį galima indeksuoti, analizuoti arba transformuoti .NET programose.

pradėti

Įdiegimas ir nustatymas

Install Aspose.PDF per NuGet arba tiesiogiai atsisiųsti susirinkimus.
Nustatykite matuotą licenciją prieš ekstrakciją (žr Išmatuota licencija ).

Savybės ir funkcijos

Raudonųjų tekstų ekstrakcija

Iš kiekvieno puslapio ištraukiamas nesikeitęs charakterio srautas.
Išsaugo baltą erdvę, eilutės lūžius ir paslėptą tekstą.
Naudinga indeksavimui arba daugiafunkciniams tekstams.

Paprastas tekstas ekstrakcija

Normalizuoja baltojo erdvės ir linijų lūžius skaityti.
Prisijunkite prie artėjančio teksto veikia protingai.
Nepamirškite fontų, grafikos ir pozicionavimo.

Page ir Range-Based Extraction

Išimkite tekstą iš visų dokumentų ar konkrečių puslapio juostų.
Sumažina atminties naudojimą ribojant apimtį.

Regioninė ekstrakcija

Nurodykite rektangulinius regionus (x, y, plotis, aukštis).
Išimkite tekstą iš antklodžių, pėdų ar stulpelių.
Idealiai tinka struktūrizuotiems dizainams.

Teksto filtravimas ir valymas

Pašalinti kontrolės sekas, ne spausdinami simbolius ir papildomą baltąją erdvę.
Pasirinktinai pašalinti tekstą iš nuorodų, laukų ar paslėptų sluoksnių.

Šifruotas PDF palaikymas

Atsisiųskite slaptažodžiu apsaugotus PDF dokumentus, pateikiant patvirtinimus.
Ekstrakcijos API automatiškai iššifruojami apdorojimo metu.

Unicode ir kodavimas

Išleidimas UTF-8 arba nurodytomis kodavimo priemonėmis.
Palaiko sudėtingus scenarijus, dešinę į kairę kalbą ir Unicode grifus.

Veiksmingumas ir konkurencija

Ekstrakcija, pagrįsta srautu, sumažina atminties pėdsaką.
Thread-safe API leidžia lygiagrečiai apdoroti kelis PDF failus.

Kodo pavyzdys: teksto ekstrakcija iš PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Patarimai ir geriausios praktikos

Pasirinkite ekstrakcijos režimą remiantis poreikiais: žalia indeksuoti, plokščia skaityti.
Apribokite ekstrakciją į plotus ar regionus, kad pagerintumėte našumą.
Naudokite filtrus anksti, kad supaprastintumėte po apdorojimo.
Išsaugoti iššifruotus atvejus, kai pakartotinai naudojami saugių PDF.
Tune juostos skaičiuoja ir buferio dydį didelio masto darbo srautams.
Nustatykite licenciją „Startup“, kad išvengtumėte vertinimo įspėjimų.

Dažnai užduodami klausimai

**Kokius ekstrakcijos būdus palaiko?**Trys: žalia, plokščia ir regioninė ekstrakcija.

**Ar galiu ištrinti tekstą iš slaptažodžiu apsaugotų PDF?**Taip, pateikiant teisingą slaptažodį, tekstas gali būti saugiai ištraukiamas.

**Ar ji palaiko dešinę į kairę ir sudėtingus scenarijus?**Taip, Unicode ir RTL scenarijai (pavyzdžiui, arabų, hebrajų) yra visiškai palaikomi.

**Kaip šis priedas skiriasi nuo visos Aspose.PDF bibliotekos?**Šis priedas yra lengvas ir optimizuotas tik teksto ekstrakcijai, o Aspose.PDF suteikia pilną PDF manipuliavimo API.

**Ar ekstrakcija yra saugi?**Taip, operacijos yra spinduliai saugios dokumentų lygmeniu lygiagrečiai apdoroti.