ASPOSE.OCR таблица за текст за .NET
ASPOSE.OCR Table to Text за .NET е мощен плъгин, който позволява на разработчиците да извличат текст от сканирани или фотографирани таблици с висока точност. Предоставянето на усъвършенствани алгоритми за машинно обучение и невронни мрежи, той открива таблични структури, привлича текст на клетъчно ниво и организира всичко в търсещи, редактируеми разпространители или табличните данни.
Инсталация и инсталиране
За да започнете, инсталирайте пакета Aspose.OCR Table to Text чрез NuGet или изтеглите асамблеята от сървърите на Asposa инсталация Инструкция за подробни стъпки.Осигуряване на пълна функционалност чрез конфигуриране на мерната лиценза, както е описано в Размер на лицензията и документацията.
Характеристики и функционалности
Откриване на масата и структурно разпознаване
- Автоматично открива границите на таблицата в скенираните или фотографирани изображения, дори ако клетките са счупени, ротирани или неравномерно оцветени.
- Поддържа мулти-роу и много-колонни оформления, нистени таблици и различни клетъчни размери.
- Осигурява йерархично представяне на редове и клетки за опростено пост-процесиране.
Извличане на клетъчен текст
- Тя разпознава текста в рамките на всяка клетка, използвайки усъвършенствани OCR алгоритми, запазвайки линиите, капитализацията и цифровото форматиране.
- Управлява няколко езика в една таблица с конфигурирани езикови приоритети.
- Поправя деформации като скеу, нисък контраст или шум на изображението, за да се повиши точността.
Реконструкция и износ на стола
- Възстановява откритите таблици в .NET данни структури (напр. DataTable) или ги експортира в CSV/TSV формати.
- Създава редактируеми файлове с разширени листове (XLSX), които могат да бъдат отворени в Excel или други инструменти.
- Съхранява основното клетъчно форматиране (равновесие, граници) и експортни координати за напреднали работни потоци.
Изтеглени и редактирани резултати
- Произвежда търсещи текстови слоеве в ПДФ Износ, което прави съдържанието на таблицата индексирано.
- Интегрира непрекъснато с Aspose.Cells за усъвършенствани операции като формули и графики.
- Позволява вграждането на извлеченото съдържание в бази данни или тръбопроводи за обработка.
Резултати и скалабилност
- Оптимизиран за обработка на комплекти от големи сбори данни с конфигурируемо задвижване и управление на паметта.
- Прехвърля данни за изображения директно към OCR двигателя, като минимизира I/O на диска.
- Осигурява повиквания за напредък и токени за отмяна за дълготрайни операции.
Разширена персонализация
- Подкрепа за регионални интереси (ROI) за ограничаване на откриването до конкретни области за по-бързо обработване.
- Конфигурируеми граници на доверие, за да филтрирате резултатите с ниска доверителност.
- Хъкове за предварителна и след обработка (приспособени филтри, алгоритми за разширяване или валидатори).
Пример: Извличане на текст от сканирани или фотографирани таблици
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Често използвани случаи
- Извличане на структурирани данни от финансовите отчети.
- Преобразуване на скенираните формуляри и приложения в шифрове.
- Автоматизиране на задачите за въвеждане на данни чрез преобразуване на таблични изображения в редактируеми формати.
Съвети и най-добри практики
- Използвайте изображения с минимум 300 DPI и добър контраст за най-добри резултати.
- Предрастващи или разпръснати изображения за изолиране на табличните райони.
- Заредете само необходимите езикови пакети, за да намалите използването на паметта.
- Направете лимити на доверие, за да балансирате точността и запомнянето.
- Валидирайте реконструираните таблици срещу очакваните схеми, преди да ги импортирате в бази данни.
Чрез спазване на тези насоки и използването на възможностите си за разпознаване на таблици, Aspose.OCR Table to Text for .NET предоставя на разработчиците надеждно решение за конвертиране на скенираните табели в структуриран, редактируем и търсещ текст.