Aspose.PDF Wyciągacz Tekstu dla .NET
Aspose.PDF Text Extractor for .NET to wtyczka skoncentrowana, która umożliwia deweloperom wyciąganie czystego, surowego lub płaskiego tekstu z dokumentów PDF. Odciąga formatowanie i elementy graficzne, zapewniając czysty treść tekstową, który może być indeksowany, analizowany lub przekształcony w aplikacjach .Net.
Rozpoczęcie
Instalacja i ustawienie
- Instalacja
Aspose.PDF
za pośrednictwem NuGet lub pobierz zgromadzenia bezpośrednio. - Ustaw licencję mierzoną przed wydzieleniem (patrz Licencjonowanie według zużycia ).
Funkcje i funkcje
Ekstrakcja tekstów surowych
- Wyciąga niezmieniony strumień znaków z każdej strony.
- Utrzymuje biały przestrzeń, przerwy linii i ukryty tekst.
- Przydatne do indeksowania lub tłumienia tekstów.
Ekstrakcja płaskiego tekstu
- Normalizuje przestrzeń białą i przerwy linii dla czytelności.
- Dołącz do przylegającego tekstu działa inteligentnie.
- Ignoruje czcionki, grafiki i pozycjonowanie.
Strona i ekstrakcja oparta na zakresu
- Ekstrakcja tekstu z całego dokumentu lub określonych rzęs stron.
- Zmniejsza wykorzystanie pamięci poprzez ograniczenie zakresu.
Ekstrakcja regionalna
- Określ rektangularne regiony (x, y, szerokość, wysokość).
- Ekstrakcja tekstu z głowic, stop lub kolumn.
- Idealny do strukturowanych rozkładów.
Filtrowanie i czyszczenie tekstów
- Usunąć sekwencje sterowania, nie wydrukowalne znaky i dodatkowe białe przestrzenie.
- Opcjonalnie wyklucz tekst z notatek, pól lub ukrytych warstw.
Kryptowana obsługa PDF
- Otwórz pliki PDF chronione hasłem poprzez dostarczanie certyfikatów.
- APIs ekstrakcji są automatycznie odkryte podczas przetwarzania.
Unicode i kodowanie
- Wyjście w UTF-8 lub określonych kodowaniach.
- Obsługuje skomplikowane skrypty, języki z prawej do lewej oraz glify Unicode.
Wydajność i konkurencja
- Ekstrakcja oparta na strumieniu minimalizuje odciski pamięci.
- Bezpieczne API umożliwiają równoległe przetwarzanie wielu plików PDF.
Przykład kodu: ekstrakcja tekstu z PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Porady i najlepsze praktyki
- Wybierz tryb ekstrakcji w oparciu o potrzeby: surowy do indeksowania, płaski do czytelności.
- Ograniczenie ekstrakcji do gałęzi lub regionów w celu poprawy wydajności.
- Wczesne zastosowanie filtrów w celu ułatwienia post-procesowania.
- Cache ukryte instancje podczas ponownego wykorzystania zabezpieczonych plików PDF.
- Tune łańcuch liczy i rozmiary buffer dla dużych przepływów roboczych.
- Ustaw licencję na startu, aby uniknąć ostrzeżeń o ocenie.
Często zadawane pytania
**Jakie metody ekstrakcji są wspierane?**Trzy: surowe, płaskie i regionalne ekstrakcje.
**Czy mogę wyciągać tekst z plików PDF chronionych hasłem?**Tak, dostarczając poprawne hasło, tekst można bezpiecznie wyciągać.
**Czy obsługuje prawo-lewo i skomplikowane skrypty?**Tak, skrypty Unicode i RTL (np. w języku arabskim, hebrajskim) są w pełni obsługiwane.
**Jak ten wtyczka różni się od pełnej biblioteki Aspose.PDF?**Ten wtyczka jest lekki i zoptymalizowany tylko do ekstrakcji tekstu, podczas gdy Aspose.PDF zapewnia pełną API manipulacji PDF.
Czy ekstrakcja jest bezpieczna? *Tak, operacje są bezpieczne na poziomie dokumentu dla równoległego przetwarzania.