Aspose.PDF Text Extractor för .NET
Aspose.PDF Text Extractor för .NET är ett fokuserat plugin som gör det möjligt för utvecklare att extrahera ren, rå eller platt text från PDF-dokument. Det skär bort formatering och grafiska element, vilket ger ren textinnehåll som kan indexeras, analyseras eller omvandlas inom .Net-applikationer.
Komma igång
Installation och installation
- Installera
Aspose.PDF
via NuGet eller ladda ner samlingar direkt. - Konfigurera måttlig licens före utvinning (se Mätlicensiering ).
Funktioner och funktioner
Röd textutvinning
- Extraherar den oförändrade karaktärsflödet från varje sida.
- Förvarar vitt utrymme, linjebrott och dolt text.
- Användbar för indexering eller bulk text dumps.
Platt text extraktion
- Normaliserar vitutrymme och linjebrott för läsbarhet.
- Gå med närliggande text körs intelligent.
- Ignorerar teckensnitt, grafik och positionering.
Page och Range-Based Extraction
- Extrahera text från hela dokument eller specifika sidranor.
- Minskar minnesanvändningen genom att begränsa räckvidden.
Regionbaserad utvinning
- Ange rektangulära regioner (x, y, bredd, höjd).
- Extract text från huvud, fot eller kolumner.
- Perfekt för strukturerade layouter.
Textfiltrering och rengöring
- Ta bort kontrollsekvenser, icke-skrivbara tecken och extra vitt utrymme.
- Alternativt utesluta text från anteckningar, fält eller dolda lager.
Krypterad PDF-support
- Öppna lösenordsskyddade PDF-filer genom att tillhandahålla certifikat.
- Extraction APIs dekrypteras automatiskt under bearbetningen.
Unicode och kodning
- Utgång i UTF-8 eller angivna kodningar.
- Stödjer komplexa skript, höger till vänster språk och Unicode glyphs.
Prestanda och konkurrens
- Strömbaserad extraktion minimerar minnesfönster.
- Thread-safe APIs möjliggör parallell bearbetning av flera PDF-filer.
Kod Exempel: Utvinning av text från PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Tips och bästa praxis
- Välj extraktionsläge baserat på behov: rå för indexering, platt för läsbarhet.
- Begränsa utvinning till rangor eller regioner för att förbättra prestanda.
- Applicera filter tidigt för att förenkla efterbehandling.
- Cache dekrypterade instanser när du återanvändar säkra PDF-filer.
- Tune thread räknar och bufferstorlekar för storskaliga arbetsflöden.
- Konfigurera licensiering på startups för att undvika utvärderingsvarningar.
Ofta ställda frågor
**Vilka metoder för utvinning stöds?**Tre: rå, platt och regionbaserad utvinning.
**Kan jag extrahera text från lösenordsskyddade PDF-filer?**Ja, genom att ge rätt lösenord kan text extraheras säkert.
**stöder det höger till vänster och komplexa skript?**Ja, Unicode och RTL-skript (t.ex. arabiska, hebreiska) stöds fullt ut.
**Hur skiljer sig denna plugin från den fullständiga Aspose.PDF-biblioteket?**Denna plugin är lättviktig och optimerad endast för textutvinning, medan Aspose.PDF ger en fullständig PDF-manipulation API.
**Är extraktionen trådsäker?**Ja, operationer är trådsäker på dokumentnivå för parallell bearbetning.