Aspose.PDF Wyciągacz Tekstu dla .NET

Aspose.PDF Text Extractor dla .NET to wtyczka skoncentrowana, która umożliwia programistom wyciągnięcie czystego, surowego lub płaskiego tekstu z PDF Odciąga formatowanie i elementy graficzne, zapewniając czystą zawartość tekstową, która może być indeksowana, analizowana lub przekształcona w aplikacjach .NET.

Rozpoczęcie

Instalacja i ustawienie

Instalacja Aspose.PDF za pośrednictwem NuGet lub pobierz zgromadzenia bezpośrednio.
Ustaw licencję mierzoną przed wydzieleniem (patrz Licencjonowanie według zużycia ).

Funkcje i funkcje

Ekstrakcja tekstów surowych

Wyciąga niezmieniony strumień znaków z każdej strony.
Utrzymuje biały przestrzeń, przerwy linii i ukryty tekst.
Przydatne do indeksowania lub tłumienia tekstów.

Ekstrakcja płaskiego tekstu

Normalizuje przestrzeń białą i przerwy linii dla czytelności.
Dołącz do przylegającego tekstu działa inteligentnie.
Ignoruje czcionki, grafiki i pozycjonowanie.

Strona i ekstrakcja oparta na zakresu

Ekstrakcja tekstu z całego dokumentu lub określonych rzęs stron.
Zmniejsza wykorzystanie pamięci poprzez ograniczenie zakresu.

Ekstrakcja regionalna

Określ rektangularne regiony (x, y, szerokość, wysokość).
Ekstrakcja tekstu z głowic, stop lub kolumn.
Idealny do strukturowanych rozkładów.

Filtrowanie i czyszczenie tekstów

Usunąć sekwencje sterowania, nie wydrukowalne znaky i dodatkowe białe przestrzenie.
Opcjonalnie wyklucz tekst z notatek, pól lub ukrytych warstw.

Kryptowana obsługa PDF

Otwórz pliki PDF chronione hasłem poprzez dostarczanie certyfikatów.
APIs ekstrakcji są automatycznie odkryte podczas przetwarzania.

Unicode i kodowanie

Wyjście w UTF-8 lub określonych kodowaniach.
Obsługuje skomplikowane skrypty, języki z prawej do lewej oraz glify Unicode.

Wydajność i konkurencja

Ekstrakcja oparta na strumieniu minimalizuje odciski pamięci.
Bezpieczne API umożliwiają równoległe przetwarzanie wielu plików PDF.

Przykład kodu: ekstrakcja tekstu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Porady i najlepsze praktyki

Wybierz tryb ekstrakcji w oparciu o potrzeby: surowy do indeksowania, płaski do czytelności.
Ograniczenie ekstrakcji do gałęzi lub regionów w celu poprawy wydajności.
Wczesne zastosowanie filtrów w celu ułatwienia post-procesowania.
Cache ukryte instancje podczas ponownego wykorzystania zabezpieczonych plików PDF.
Tune łańcuch liczy i rozmiary buffer dla dużych przepływów roboczych.
Ustaw licencję na startu, aby uniknąć ostrzeżeń o ocenie.

Często zadawane pytania

**Jakie metody ekstrakcji są wspierane?**Trzy: surowe, płaskie i regionalne ekstrakcje.

**Czy mogę wyciągać tekst z plików PDF chronionych hasłem?**Tak, dostarczając poprawne hasło, tekst można bezpiecznie wyciągać.

**Czy obsługuje prawo-lewo i skomplikowane skrypty?**Tak, skrypty Unicode i RTL (np. w języku arabskim, hebrajskim) są w pełni obsługiwane.

**Jak ten wtyczka różni się od pełnej biblioteki Aspose.PDF?**Ten wtyczka jest lekki i zoptymalizowany tylko do ekstrakcji tekstu, podczas gdy Aspose.PDF zapewnia pełną API manipulacji PDF.

**Czy ekstrakcja jest bezpieczna?**Tak, operacje są bezpieczne na poziomie dokumentu dla równoległego przetwarzania.