Aspose.PDF Wyciągacz Tekstu dla .NET

Aspose.PDF Text Extractor for .NET to wtyczka skoncentrowana, która umożliwia deweloperom wyciąganie czystego, surowego lub płaskiego tekstu z dokumentów PDF. Odciąga formatowanie i elementy graficzne, zapewniając czysty treść tekstową, który może być indeksowany, analizowany lub przekształcony w aplikacjach .Net.

Rozpoczęcie

Instalacja i ustawienie

  • Instalacja Aspose.PDF za pośrednictwem NuGet lub pobierz zgromadzenia bezpośrednio.
  • Ustaw licencję mierzoną przed wydzieleniem (patrz Licencjonowanie według zużycia ).

Funkcje i funkcje

Ekstrakcja tekstów surowych

  • Wyciąga niezmieniony strumień znaków z każdej strony.
  • Utrzymuje biały przestrzeń, przerwy linii i ukryty tekst.
  • Przydatne do indeksowania lub tłumienia tekstów.

Ekstrakcja płaskiego tekstu

  • Normalizuje przestrzeń białą i przerwy linii dla czytelności.
  • Dołącz do przylegającego tekstu działa inteligentnie.
  • Ignoruje czcionki, grafiki i pozycjonowanie.

Strona i ekstrakcja oparta na zakresu

  • Ekstrakcja tekstu z całego dokumentu lub określonych rzęs stron.
  • Zmniejsza wykorzystanie pamięci poprzez ograniczenie zakresu.

Ekstrakcja regionalna

  • Określ rektangularne regiony (x, y, szerokość, wysokość).
  • Ekstrakcja tekstu z głowic, stop lub kolumn.
  • Idealny do strukturowanych rozkładów.

Filtrowanie i czyszczenie tekstów

  • Usunąć sekwencje sterowania, nie wydrukowalne znaky i dodatkowe białe przestrzenie.
  • Opcjonalnie wyklucz tekst z notatek, pól lub ukrytych warstw.

Kryptowana obsługa PDF

  • Otwórz pliki PDF chronione hasłem poprzez dostarczanie certyfikatów.
  • APIs ekstrakcji są automatycznie odkryte podczas przetwarzania.

Unicode i kodowanie

  • Wyjście w UTF-8 lub określonych kodowaniach.
  • Obsługuje skomplikowane skrypty, języki z prawej do lewej oraz glify Unicode.

Wydajność i konkurencja

  • Ekstrakcja oparta na strumieniu minimalizuje odciski pamięci.
  • Bezpieczne API umożliwiają równoległe przetwarzanie wielu plików PDF.

Przykład kodu: ekstrakcja tekstu z PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Porady i najlepsze praktyki

  • Wybierz tryb ekstrakcji w oparciu o potrzeby: surowy do indeksowania, płaski do czytelności.
  • Ograniczenie ekstrakcji do gałęzi lub regionów w celu poprawy wydajności.
  • Wczesne zastosowanie filtrów w celu ułatwienia post-procesowania.
  • Cache ukryte instancje podczas ponownego wykorzystania zabezpieczonych plików PDF.
  • Tune łańcuch liczy i rozmiary buffer dla dużych przepływów roboczych.
  • Ustaw licencję na startu, aby uniknąć ostrzeżeń o ocenie.

Często zadawane pytania

**Jakie metody ekstrakcji są wspierane?**Trzy: surowe, płaskie i regionalne ekstrakcje.

**Czy mogę wyciągać tekst z plików PDF chronionych hasłem?**Tak, dostarczając poprawne hasło, tekst można bezpiecznie wyciągać.

**Czy obsługuje prawo-lewo i skomplikowane skrypty?**Tak, skrypty Unicode i RTL (np. w języku arabskim, hebrajskim) są w pełni obsługiwane.

**Jak ten wtyczka różni się od pełnej biblioteki Aspose.PDF?**Ten wtyczka jest lekki i zoptymalizowany tylko do ekstrakcji tekstu, podczas gdy Aspose.PDF zapewnia pełną API manipulacji PDF.

Czy ekstrakcja jest bezpieczna? *Tak, operacje są bezpieczne na poziomie dokumentu dla równoległego przetwarzania.

 Polski