Aspose.OCR Сканований PDF в текст для .NET
Скриншоти.OCR скануто ПДФ Text for .NET дозволяє розробникам витягувати текст з сканованих PDF-файлів або конвертувати їх в повністю пошукові документи. він читає будь-який розклад і стиль, точно визначає структуру тексту і таблиць, а також зберігає оригінальні зображення в фоні для повного зберігання контенту.
Інсталяція та установка
Щоб почати, встановіть пакет Aspose.OCR у ваш проект .NET через NuGet або з локально завантаженого файлу Встановлення Управління.Перед тим, як зателефонувати до будь-яких методів ОКР, налаштуйте розмірну ліцензію як описано в Ліцензування за використанням і документації.
Особливості та функції
Екстракція тексту з сканованих PDF
- Читає сторінки, засновані на бітмапі, і застосовує OCR для витягу визначеного тексту.
- Підтримує як односторонній, так і багатосторінковий вхід PDF.
- Виставляє текстові фрагменти разом з їх позицією, атрибутами шрифту та оцінками довіри.
ОКР точність та збереження розташування
- Доставка передових двигунів OCR для максимізації точності розпізнавання на низькоякісних сканах.
- Збереження потоку документа: параграфи, колонки та лінійні перерви залишаються узгодженими з походженням розташування.
- Він надає детальні метадані розташування, щоб розробники могли реконструювати або перепромінювати вміст.
Визначення та екстракція столу
- Автоматично виявляє структури таблиці в межах сканованих сторінок.
- Виходить вміст таблиці як структуровані рядки і клітини з координатами кордону.
- Це дозволяє знижувати експорт до CSV, Excel або пристосованих схем.
Пошукова документальна конверсія
- Він вводить визнаний текст назад в PDF-файли як невидимий шар, що робить їх пошуковими без зміни зовнішнього вигляду.
- Зберігає оригінальний сканований зображення, щоб зберегти вірність зору.
Збереження фонові зображення
- Кіпс сканує зображення непрямим у фоні.
- Місцезнаходження визнаного тексту на вершині для безперервного читання та друку.
Налаштування визнання параметрів
- Налаштування режимів сегментації для односторонніх/множинних розташувань.
- Налаштуйте білий/чорний список персонажів для доменного визнання.
- Контрольна роздільна здатність, ДПІ та фільтри попереднього обробки (відмикання, видалення шуму, тривалість).
Мултимовна та скриптова підтримка
- Визнає латинську, цирильну, грецьку, китайську та індійську мови.
- Дозволяє динамічне завантаження мовних пакетів.
- АПІ дозволяють визначити первинні та вторинні мови розпізнавання за сторінкою.
Управління ефективністю та ресурсами
- Підтримує багатосторонню обробку PDF.
- Async APIs дозволяє паралельну обробку робочих навантажень.
- Забезпечує варіанти тонування для використання смуги та розмірів буфера.
Приклад: Витяг тексту з сканованих PDF-файлів
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Традиції та найкращі практики
- Препроцесувати PDF-файли (дескев, дескел, прапор) для поліпшення точності.
- Використовуйте аналіз розташування для виявлення тексту та таблиць перед екстракцією.
- Використовуйте обмеження довіри для підтвердження критичного контенту.
- Обмеження конкурентоспроможних двигунів OCR на робочих місцях, щоб запобігти обмеженню ресурсів.
- Каше мова пакети і повторне використання OCR-моторні приклади на кількох сторінках.
Завдяки поєднанню точності OCR, виявлення таблиці та пошукової генерації PDF, Aspose.OCR Scanned PDF to Text for .NET забезпечує повне рішення для цифровизації та екстракції тексту з сканованих PDF при збереженні оригінального розташування.