Aspose.PDF текст екстрактор за .NET
Aspose.PDF Text Extractor за .NET е фокусиран плъгин, който позволява на разработчиците да извличат чист, суров или плосък текст от PDF документи. Той премахва форматирането и графичните елементи, осигурявайки чисто текстуално съдържание, което може да бъде индексирано, анализирано или трансформирано в рамките на приложенията .Net.
Да започнем
Инсталация и инсталиране
- Инсталиране
Aspose.PDF
чрез NuGet или изтегляне на събрания директно. - Конфигуриране на разрешението преди екстракцията (виж Размер на лицензията ).
Характеристики и функционалности
Извличане на суров текст
- Извлича непроменения поток на характер от всяка страница.
- Съхранява бели пространства, линии прекъсвания и скрит текст.
- Полезен за индексиране или масови текстове.
Екстракция на текст
- Нормализира белия пространство и линии прекъсвания за четене.
- Присъединете се към съпътстващия текст работи интелигентно.
- Игнорира шрифтове, графики и позициониране.
Страница и екстракция на базата на ранг
- Извлечете текст от цели документи или конкретни страници.
- Намалява използването на паметта чрез ограничаване на обхвата.
Регионална екстракция
- Определете правоъгълните региони (x, y, ширина, височина).
- Извлечете текст от глави, стъпала или колони.
- Идеален за структурирани слоеве.
Филтриране и почистване на текст
- Премахване на контролни секции, непечатани знаци и допълнителен бял простор.
- Опционално изключете текст от бележки, полета или скритите слоеве.
Зашифрована PDF поддръжка
- Отворете защитени с парола PDF файлове чрез предоставяне на удостоверения.
- Екстракционните АПИ се дешифрират автоматично по време на обработката.
Unicode и Encoding
- Изход в UTF-8 или определени кодове.
- Поддържа сложни скрипти, езици от дясно до ляво и Unicode глифи.
Резултати и конкуренция
- Екстракцията на базата на потока минимизира отпечатъка на паметта.
- Thread-safe APIs позволяват паралелна обработка на няколко PDF файла.
Пример за код: Извличане на текст от PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Съвети и най-добри практики
- Изберете режим на екстракция въз основа на нуждите: сурово за индексиране, плоско за четене.
- Ограничете екстракцията до нива или региони за подобряване на производителността.
- Използвайте филтри рано, за да опростите след обработка.
- Изтеглете дешифрирани примери при повторна употреба на защитени PDF файлове.
- Tune thread брои и буфер размери за мащабни работни потоци.
- Конфигурирайте лицензията на стартиращия, за да избегнете предупреждения за оценка.
Често задавани въпроси
**Какви режими на екстракция се поддържат?**Три: сурова, плоска и регионална екстракция.
**Мога ли да извличам текст от защитени с парола PDF файлове?**Да, чрез предоставяне на правилния парола, текстът може да бъде извлечен безопасно.
**Поддържа ли тя десно-ляво и сложни скрипти?**Да, Unicode и RTL скрипти (например арабски, еврейски) са напълно поддържани.
**Как се различава този плъгин от цялата библиотека Aspose.PDF?**Този плъгин е лесен и оптимизиран само за извличане на текст, докато Aspose.PDF осигурява пълен API за PDF манипулация.
*Безопасно ли е екстракцията?*Да, операциите са безопасни на нивото на документа за паралелна обработка.