Aspose.PDF Text Extractor для .NET

Aspose.PDF Text Extractor для .NET является концентрированным плагином, который позволяет разработчикам извлечь чистый, сырый или плоский текст из PDF Он удаляет форматирование и графические элементы, обеспечивая чистый текстовый контент, который можно индексировать, анализировать или трансформировать в рамках приложений .NET.

Начало работы

Инсталляция и установка

Инсталляция Aspose.PDF через NuGet или скачать собрания напрямую.
Настройка разрешения перед экстракцией (см Лицензирование с учетом объема потребления ).

Особенности и функции

Изображение Raw Text Extraction

Выводит неизменный поток персонажа с каждой страницы.
Сохраняет белый пространство, линии перерывов и скрытый текст.
Полезно для индексирования или множественного текста.

Прозрачная экстракция текста

Нормализует белый пространство и линии перерывов для читаемости.
Присоединяется соседний текст работает умственно.
Игнорирует шрифты, графику и позиционирование.

Страница и ранг-базированная экстракция

Экстрактируйте текст из целого документа или конкретных строк страницы.
Снижает использование памяти путем ограничения объема.

Региональная экстракция

Определите прямоугольные регионы (x, y, ширина, высота).
Экстрактируйте текст из голов, ступней или колонн.
Идеально подходит для структурированных расположений.

Текст фильтрация и очистка

Удаление контрольных секций, непечатаемых персонажей и дополнительного белого пространства.
Опционально исключите текст из нотаций, полей или скрытых слоев.

Зашифрованная поддержка PDF

Откройте защищенные паролями PDF-файлы, предоставляя сертификаты.
Экстракционные API автоматически дешифруются во время обработки.

Unicode и Encoding

Выход в UTF-8 или специфицированные кодировки.
Поддерживает сложные скрипты, право-левые языки и Unicode glyphs.

Уровень производительности и конкуренция

Экстракция на основе потока минимизирует отпечатки памяти.
Thread-safe APIs позволяют параллельно обрабатывать несколько PDF-файлов.

Код Пример: Извлечение текста из PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

Советы и лучшие практики

Выберите режим экстракции на основе потребностей: сырой для индексации, плоской для читаемости.
Ограничение экстракции до ранг или регионов для улучшения производительности.
Применить фильтры рано, чтобы упростить пост-тренировку.
Скачать дешифрованные случаи при повторном использовании защищенных PDF-файлов.
Тонные нитки рассчитывают и буферные размеры для крупномасштабных рабочих потоков.
Настройка лицензирования на стартапе, чтобы избежать предупреждений об оценке.

Часто задаваемые вопросы

**Какие способы экстракции поддерживаются?**Три: сырая, плоская и региональная экстракция.

**Могу ли я извлечь текст из защищенных паролями PDF-файлов?**Да, предоставляя правильный пароль, текст можно безопасно извлечь.

**Поддерживает ли она право-левые и сложные скрипты?**Да, Unicode и RTL скрипты (например, арабский, еврейский) полностью поддерживаются.

**Как этот плагин отличается от полной библиотеки Aspose.PDF?**Этот плагин легкий и оптимизирован только для экстракции текста, в то время как Aspose.PDF обеспечивает полный API для обработки PDF.

**Экстракция ли безопасна?**Да, операции безопасны на уровне документа для параллельной обработки.