Aspose.PDF Text Extractor для .NET

Aspose.PDF Text Extractor для .NET является концентрированным плагином, который позволяет разработчикам экстрактировать чистый, сырый или плоский текст из PDF-документов. он удаляет форматирование и графические элементы, обеспечивая чистое текстовое содержание, которое можно индексировать, анализировать или трансформировать в рамках приложений .Net.

Начало работы

Инсталляция и установка

Особенности и функции

Изображение Raw Text Extraction

  • Выводит неизменный поток персонажа с каждой страницы.
  • Сохраняет белый пространство, линии перерывов и скрытый текст.
  • Полезно для индексирования или множественного текста.

Прозрачная экстракция текста

  • Нормализует белый пространство и линии перерывов для читаемости.
  • Присоединяется соседний текст работает умственно.
  • Игнорирует шрифты, графику и позиционирование.

Страница и ранг-базированная экстракция

  • Экстрактируйте текст из целого документа или конкретных строк страницы.
  • Снижает использование памяти путем ограничения объема.

Региональная экстракция

  • Определите прямоугольные регионы (x, y, ширина, высота).
  • Экстрактируйте текст из голов, ступней или колонн.
  • Идеально подходит для структурированных расположений.

Текст фильтрация и очистка

  • Удаление контрольных секций, непечатаемых персонажей и дополнительного белого пространства.
  • Опционально исключите текст из нотаций, полей или скрытых слоев.

Зашифрованная поддержка PDF

  • Откройте защищенные паролями PDF-файлы, предоставляя сертификаты.
  • Экстракционные API автоматически дешифруются во время обработки.

Unicode и Encoding

  • Выход в UTF-8 или специфицированные кодировки.
  • Поддерживает сложные скрипты, право-левые языки и Unicode glyphs.

Уровень производительности и конкуренция

  • Экстракция на основе потока минимизирует отпечатки памяти.
  • Thread-safe APIs позволяют параллельно обрабатывать несколько PDF-файлов.

Код Пример: Извлечение текста из PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Советы и лучшие практики

  • Выберите режим экстракции на основе потребностей: сырой для индексации, плоской для читаемости.
  • Ограничение экстракции до ранг или регионов для улучшения производительности.
  • Применить фильтры рано, чтобы упростить пост-тренировку.
  • Скачать дешифрованные случаи при повторном использовании защищенных PDF-файлов.
  • Тонные нитки рассчитывают и буферные размеры для крупномасштабных рабочих потоков.
  • Настройка лицензирования на стартапе, чтобы избежать предупреждений об оценке.

Часто задаваемые вопросы

**Какие способы экстракции поддерживаются?**Три: сырая, плоская и региональная экстракция.

**Могу ли я извлечь текст из защищенных паролями PDF-файлов?**Да, предоставляя правильный пароль, текст можно безопасно извлечь.

**Поддерживает ли она право-левые и сложные скрипты?**Да, Unicode и RTL скрипты (например, арабский, еврейский) полностью поддерживаются.

**Как этот плагин отличается от полной библиотеки Aspose.PDF?**Этот плагин легкий и оптимизирован только для экстракции текста, в то время как Aspose.PDF обеспечивает полный API для обработки PDF.

«Экстракция ли безопасна?».Да, операции безопасны на уровне документа для параллельной обработки.

 Русский