Aspose.PDF текстуални екстрактор за .NET
Aspose.PDF Text Extractor for .NET је фокусиран плугин који омогућава програмерима да екстрактирају чист, сирови, или равни текст из ПДФ докумената. Он уклања форматирање и графичке елементе, пружајући чисту текстуалну садржај који се може индексирати, анализирати или трансформисати унутар апликација.
Počeo je
Инсталација и подешавање
- Инсталирање
Aspose.PDF
преко NuGet или преузмите скупштине директно. - Конфигурисање усмерене лиценце пре екстракције (види Метеран лиценцирање ).
Карактеристике и функције
Екстракција сировог текста
- Екстрактира непромењени ток карактера са сваке странице.
- Сачува бели простор, линије прекида, и скривени текст.
- Корисно за индексирање или масовне текстуалне думпе.
Екстракција плоског текста
- Нормализује бели простор и линије прекида за читавост.
- Придруживање суседни текст ради паметно.
- Игнорише шрифтове, графике и позиционирање.
Страница и екстракција заснована на опсегу
- Екстрактирајте текст из целог документа или одређених страница.
- Смањује употребу меморије ограничавајући опсег.
Регионална екстракција
- Опремите правоугаоне области (х, и, ширина, висина).
- Екстрактирајте текст из глава, стопала или колона.
- Идеалан за структуриране распореде.
Филтрирање и чишћење текста
- Уклоните контролне секције, не-принтирајуће знакове и додатни бели простор.
- Опционално искључите текст из ознака, поља или скривених слојева.
шифрована ПДФ подршка
- Отворите пасош-заштићене ПДФ-а пружајући аутентификације.
- Екстракција АПИ се дешифрује аутоматски током обраде.
Unicode i kodiranje
- Излазак у УТФ-8 или одређеним кодирањем.
- Подржава сложене скрипте, десно-лево језике и Unicode глифе.
Резултати и конкуренција
- Екстракција на бази струје минимизира печат меморије.
- Bezbedne API omogućavaju paralelnu obradu više PDF-a.
Код Пример: Екстракција текста из ПДФ-а
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
Савети и најбоља пракса
- Изаберите режим екстракције на основу потреба: сировина за индексирање, равна за читавост.
- Ограничите екстракцију у редовима или регионима како бисте побољшали перформансе.
- Примените филтере рано да бисте олакшали пост-процесију.
- Cache dešifrirane primere prilikom ponovnog korišćenja zaštićenih PDF-a.
- Tune thread broji i buffer veličine za opsežne tokove rada.
- Поставите лиценцирање на стартапу како бисте избегли упозорења за евалуацију.
Često postavljana pitanja
**Који режими екстракције су подржани?**Три: сировина, равна и регионална екстракција.
**Могу ли извући текст из ПДФ-а који су заштићени лозинком?**Да, пружајући прави лозинку, текст се може безбедно извући.
**Да ли подржава десно-лево и сложене скрипте?**Да, Unicode и RTL скрипти (на пример, арапски, хебрејски) су потпуно подржани.
**Како се овај додатак разликује од пуне Аппосе.ПДФ библиотеке?**Овај плугин је лагано и оптимизован само за екстракцију текста, док Aspose.PDF пружа пуну АПИ за манипулацију ПДФ-ом.
**Да ли је екстракција тхед-сигурна?**Да, операције су безбедне на нивоу документа за паралелну обраду.