Aspose.PDF Text Extractor для .NET
Aspose.PDF Text Extractor для .NET является концентрированным плагином, который позволяет разработчикам экстрактировать чистый, сырый или плоский текст из PDF-документов. он удаляет форматирование и графические элементы, обеспечивая чистое текстовое содержание, которое можно индексировать, анализировать или трансформировать в рамках приложений .Net.
Начало работы
Инсталляция и установка
- Инсталляция
Aspose.PDF
через NuGet или скачать собрания напрямую. - Настройка разрешения перед экстракцией (см. Лицензирование с учетом объема потребления ).
Особенности и функции
Изображение Raw Text Extraction
- Выводит неизменный поток персонажа с каждой страницы.
- Сохраняет белый пространство, линии перерывов и скрытый текст.
- Полезно для индексирования или множественного текста.
Прозрачная экстракция текста
- Нормализует белый пространство и линии перерывов для читаемости.
- Присоединяется соседний текст работает умственно.
- Игнорирует шрифты, графику и позиционирование.
Страница и ранг-базированная экстракция
- Экстрактируйте текст из целого документа или конкретных строк страницы.
- Снижает использование памяти путем ограничения объема.
Региональная экстракция
- Определите прямоугольные регионы (x, y, ширина, высота).
- Экстрактируйте текст из голов, ступней или колонн.
- Идеально подходит для структурированных расположений.
Текст фильтрация и очистка
- Удаление контрольных секций, непечатаемых персонажей и дополнительного белого пространства.
- Опционально исключите текст из нотаций, полей или скрытых слоев.
Зашифрованная поддержка PDF
- Откройте защищенные паролями PDF-файлы, предоставляя сертификаты.
- Экстракционные API автоматически дешифруются во время обработки.
Unicode и Encoding
- Выход в UTF-8 или специфицированные кодировки.
- Поддерживает сложные скрипты, право-левые языки и Unicode glyphs.
Уровень производительности и конкуренция
- Экстракция на основе потока минимизирует отпечатки памяти.
- Thread-safe APIs позволяют параллельно обрабатывать несколько PDF-файлов.
Код Пример: Извлечение текста из PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Советы и лучшие практики
- Выберите режим экстракции на основе потребностей: сырой для индексации, плоской для читаемости.
- Ограничение экстракции до ранг или регионов для улучшения производительности.
- Применить фильтры рано, чтобы упростить пост-тренировку.
- Скачать дешифрованные случаи при повторном использовании защищенных PDF-файлов.
- Тонные нитки рассчитывают и буферные размеры для крупномасштабных рабочих потоков.
- Настройка лицензирования на стартапе, чтобы избежать предупреждений об оценке.
Часто задаваемые вопросы
**Какие способы экстракции поддерживаются?**Три: сырая, плоская и региональная экстракция.
**Могу ли я извлечь текст из защищенных паролями PDF-файлов?**Да, предоставляя правильный пароль, текст можно безопасно извлечь.
**Поддерживает ли она право-левые и сложные скрипты?**Да, Unicode и RTL скрипты (например, арабский, еврейский) полностью поддерживаются.
**Как этот плагин отличается от полной библиотеки Aspose.PDF?**Этот плагин легкий и оптимизирован только для экстракции текста, в то время как Aspose.PDF обеспечивает полный API для обработки PDF.
«Экстракция ли безопасна?».Да, операции безопасны на уровне документа для параллельной обработки.