Aspose.OCR tabuľka na text pre .NET
Aspose.OCR Tabuľka na text pre .NET je výkonný plugin, ktorý umožňuje vývojárom extrahovať text z skenovaných alebo fotografovaných tabuliek s vysokou presnosťou. Odstránenie pokročilých algoritmov strojového vzdelávania a neurálnych sietí, detekuje tabuľkové štruktúry, vytiahne text na úrovni buniek a organizuje všetko do vyhľadávateľných, editovateľných šípkových tabúľ alebo tabular datových štatúr.
Inštalácia a nastavenie
Ak chcete začať, nainštalujte balíček Aspose.OCR Table to Text prostredníctvom NuGet alebo si ho stiahnite z serverov Asposa inštalácia Príslušenstvo pre podrobné kroky.Umožňuje plnú funkčnosť konfiguráciou meranej licencie, ako je popísané v Metrické licencie a dokumentácie.
Funkcie a funkcie
Detekcia tabuľky a rozpoznávanie štruktúry
- Automaticky detekuje hranice tabuľky v skenovaných alebo fotografovaných snímkach, aj keď sú bunky rozmazané, otáčené alebo nerovnomerne osvetlené.
- Podporuje rozloženie viacvrstvových a viacerých stĺpcov, nestované tabuľky a rôzne veľkosti buniek.
- Poskytuje hierarchickú reprezentáciu riadkov a buniek pre zjednodušené post-procesovanie.
Textová extrakcia buniek
- Rozpoznáva text v rámci každej bunky pomocou pokročilých algoritmov OCR, zachováva prerušenia línie, kapitalizáciu a numerické formátovanie.
- Spravuje viaceré jazyky v jednej tabuľke s konfigurovateľnými jazykovými prioritami.
- Opravuje poruchy, ako je šik, nízky kontrast alebo zvuk obrazu, aby sa zvýšila presnosť.
Rekonštrukcia a vývoz
- Obnovuje zistené tabuľky do datových štruktúr .NET (napr. DataTable) alebo ich vyváža do formátov CSV/TSV.
- Vytvára editovateľné šípkové súbory (XLSX), ktoré sa môžu otvoriť v programe Excel alebo iných nástrojov.
- Udržuje základné bunkové formátovanie (alignment, hranice) a export koordináty pre pokročilé pracovné toky.
Vyhľadávaný a upravený výstup
- Vytvára vyhľadávateľné textové vrstvy v PDF Vývoz, čo robí obsah tabuľky indexovateľný.
- Bezproblémovo sa integruje s Aspose.Cells pre pokročilé operácie spreadsheet, ako sú vzorce a grafovanie.
- Umožňuje vložiť extrahovaný obsah do databáz alebo downstream spracovateľských potrubí.
Výkon a škálovateľnosť
- Optimalizované pre batch spracovanie veľkých dátových súborov s konfigurovateľným vytiahnutím a správou pamäte.
- Zdrojové údaje prúdia priamo do motora OCR, čo minimalizuje disk I/O.
- Poskytuje pokrok callbacks a zrušenie tokenov pre dlhotrvajúce operácie.
Pokročilá personalizácia
- Region-of-interest (ROI) podporuje obmedzenie detekcie na konkrétne oblasti pre rýchlejšie spracovanie.
- Konfigurovateľné hranice dôvery na filtrovanie výsledkov s nízkou dôverou.
- Príslušenstvo pre pred- a po spracovaní (vlastné filtre, algoritmy odkladu alebo validátory).
Príklad: Odstránenie textu z skenovaných alebo fotografovaných tabuliek
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
bežné prípady použitia
- Odstrániť štruktúrované údaje z finančných správ.
- Konvertovať skenované formuláre a aplikácie na šípky.
- Automatizácia úloh vstupu údajov transformáciou tabuľkových obrázkov do upravených formátov.
Tipy a najlepšie postupy
- Použite obrázky s minimálne 300 DPI a dobrým kontrastom pre najlepšie výsledky.
- Pre-crop alebo deskew obrázky na izoláciu tabuľkových oblastí.
- Nahrať len potrebné jazykové balíky na zníženie používania pamäte.
- Nastavte hranice dôvery, aby ste vyrovnali presnosť a spomienku.
- Validujte rekonštruované tabuľky proti očakávaným schémám pred importom do databáz.
Spĺňajúc tieto pokyny a využívaním schopností rozpoznávania tabuľky, Aspose.OCR Table to Text for .NET poskytuje vývojárom spoľahlivé riešenie pre konverziu skenovaných tabuliek do štruktúrovaného, upraviteľného a vyhľadávateľného textu.