Aspose.OCR Сканований PDF в текст для .NET

Скриншоти.OCR скануто ПДФ Text for .NET дозволяє розробникам витягувати текст з сканованих PDF-файлів або конвертувати їх в повністю пошукові документи. він читає будь-який розклад і стиль, точно визначає структуру тексту і таблиць, а також зберігає оригінальні зображення в фоні для повного зберігання контенту.

Інсталяція та установка

Щоб почати, встановіть пакет Aspose.OCR у ваш проект .NET через NuGet або з локально завантаженого файлу Встановлення Управління.Перед тим, як зателефонувати до будь-яких методів ОКР, налаштуйте розмірну ліцензію як описано в Ліцензування за використанням і документації.

Особливості та функції

Екстракція тексту з сканованих PDF

Читає сторінки, засновані на бітмапі, і застосовує OCR для витягу визначеного тексту.
Підтримує як односторонній, так і багатосторінковий вхід PDF.
Виставляє текстові фрагменти разом з їх позицією, атрибутами шрифту та оцінками довіри.

ОКР точність та збереження розташування

Доставка передових двигунів OCR для максимізації точності розпізнавання на низькоякісних сканах.
Збереження потоку документа: параграфи, колонки та лінійні перерви залишаються узгодженими з походженням розташування.
Він надає детальні метадані розташування, щоб розробники могли реконструювати або перепромінювати вміст.

Визначення та екстракція столу

Автоматично виявляє структури таблиці в межах сканованих сторінок.
Виходить вміст таблиці як структуровані рядки і клітини з координатами кордону.
Це дозволяє знижувати експорт до CSV, Excel або пристосованих схем.

Пошукова документальна конверсія

Він вводить визнаний текст назад в PDF-файли як невидимий шар, що робить їх пошуковими без зміни зовнішнього вигляду.
Зберігає оригінальний сканований зображення, щоб зберегти вірність зору.

Збереження фонові зображення

Кіпс сканує зображення непрямим у фоні.
Місцезнаходження визнаного тексту на вершині для безперервного читання та друку.

Налаштування визнання параметрів

Налаштування режимів сегментації для односторонніх/множинних розташувань.
Налаштуйте білий/чорний список персонажів для доменного визнання.
Контрольна роздільна здатність, ДПІ та фільтри попереднього обробки (відмикання, видалення шуму, тривалість).

Мултимовна та скриптова підтримка

Визнає латинську, цирильну, грецьку, китайську та індійську мови.
Дозволяє динамічне завантаження мовних пакетів.
АПІ дозволяють визначити первинні та вторинні мови розпізнавання за сторінкою.

Управління ефективністю та ресурсами

Підтримує багатосторонню обробку PDF.
Async APIs дозволяє паралельну обробку робочих навантажень.
Забезпечує варіанти тонування для використання смуги та розмірів буфера.

Приклад: Витяг тексту з сканованих PDF-файлів

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);

// Process selected pages from a PDF
input.Add("source1.pdf", 0, 3); // first 3 pages
// Process all pages from another PDF
input.Add("source2.pdf");

Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;

List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results to file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

Традиції та найкращі практики

Препроцесувати PDF-файли (дескев, дескел, прапор) для поліпшення точності.
Використовуйте аналіз розташування для виявлення тексту та таблиць перед екстракцією.
Використовуйте обмеження довіри для підтвердження критичного контенту.
Обмеження конкурентоспроможних двигунів OCR на робочих місцях, щоб запобігти обмеженню ресурсів.
Каше мова пакети і повторне використання OCR-моторні приклади на кількох сторінках.

Завдяки поєднанню точності OCR, виявлення таблиці та пошукової генерації PDF, Aspose.OCR Scanned PDF to Text for .NET забезпечує повне рішення для цифровизації та екстракції тексту з сканованих PDF при збереженні оригінального розташування.