Aspose.OCR tabuľka na text pre .NET

Aspose.OCR Tabuľka na text pre .NET je výkonný plugin, ktorý umožňuje vývojárom extrahovať text z skenovaných alebo fotografovaných tabuliek s vysokou presnosťou. Odstránenie pokročilých algoritmov strojového vzdelávania a neurálnych sietí, detekuje tabuľkové štruktúry, vytiahne text na úrovni buniek a organizuje všetko do vyhľadávateľných, editovateľných šípkových tabúľ alebo tabular datových štatúr.

Inštalácia a nastavenie

Ak chcete začať, nainštalujte balíček Aspose.OCR Table to Text prostredníctvom NuGet alebo si ho stiahnite z serverov Asposa inštalácia Príslušenstvo pre podrobné kroky.Umožňuje plnú funkčnosť konfiguráciou meranej licencie, ako je popísané v Metrické licencie a dokumentácie.

Funkcie a funkcie

Detekcia tabuľky a rozpoznávanie štruktúry

  • Automaticky detekuje hranice tabuľky v skenovaných alebo fotografovaných snímkach, aj keď sú bunky rozmazané, otáčené alebo nerovnomerne osvetlené.
  • Podporuje rozloženie viacvrstvových a viacerých stĺpcov, nestované tabuľky a rôzne veľkosti buniek.
  • Poskytuje hierarchickú reprezentáciu riadkov a buniek pre zjednodušené post-procesovanie.

Textová extrakcia buniek

  • Rozpoznáva text v rámci každej bunky pomocou pokročilých algoritmov OCR, zachováva prerušenia línie, kapitalizáciu a numerické formátovanie.
  • Spravuje viaceré jazyky v jednej tabuľke s konfigurovateľnými jazykovými prioritami.
  • Opravuje poruchy, ako je šik, nízky kontrast alebo zvuk obrazu, aby sa zvýšila presnosť.

Rekonštrukcia a vývoz

  • Obnovuje zistené tabuľky do datových štruktúr .NET (napr. DataTable) alebo ich vyváža do formátov CSV/TSV.
  • Vytvára editovateľné šípkové súbory (XLSX), ktoré sa môžu otvoriť v programe Excel alebo iných nástrojov.
  • Udržuje základné bunkové formátovanie (alignment, hranice) a export koordináty pre pokročilé pracovné toky.

Vyhľadávaný a upravený výstup

  • Vytvára vyhľadávateľné textové vrstvy v PDF Vývoz, čo robí obsah tabuľky indexovateľný.
  • Bezproblémovo sa integruje s Aspose.Cells pre pokročilé operácie spreadsheet, ako sú vzorce a grafovanie.
  • Umožňuje vložiť extrahovaný obsah do databáz alebo downstream spracovateľských potrubí.

Výkon a škálovateľnosť

  • Optimalizované pre batch spracovanie veľkých dátových súborov s konfigurovateľným vytiahnutím a správou pamäte.
  • Zdrojové údaje prúdia priamo do motora OCR, čo minimalizuje disk I/O.
  • Poskytuje pokrok callbacks a zrušenie tokenov pre dlhotrvajúce operácie.

Pokročilá personalizácia

  • Region-of-interest (ROI) podporuje obmedzenie detekcie na konkrétne oblasti pre rýchlejšie spracovanie.
  • Konfigurovateľné hranice dôvery na filtrovanie výsledkov s nízkou dôverou.
  • Príslušenstvo pre pred- a po spracovaní (vlastné filtre, algoritmy odkladu alebo validátory).

Príklad: Odstránenie textu z skenovaných alebo fotografovaných tabuliek

Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");

// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();

// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");

// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;

// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
    Console.WriteLine(result.RecognitionText);
}

// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);

bežné prípady použitia

  • Odstrániť štruktúrované údaje z finančných správ.
  • Konvertovať skenované formuláre a aplikácie na šípky.
  • Automatizácia úloh vstupu údajov transformáciou tabuľkových obrázkov do upravených formátov.

Tipy a najlepšie postupy

  • Použite obrázky s minimálne 300 DPI a dobrým kontrastom pre najlepšie výsledky.
  • Pre-crop alebo deskew obrázky na izoláciu tabuľkových oblastí.
  • Nahrať len potrebné jazykové balíky na zníženie používania pamäte.
  • Nastavte hranice dôvery, aby ste vyrovnali presnosť a spomienku.
  • Validujte rekonštruované tabuľky proti očakávaným schémám pred importom do databáz.

Spĺňajúc tieto pokyny a využívaním schopností rozpoznávania tabuľky, Aspose.OCR Table to Text for .NET poskytuje vývojárom spoľahlivé riešenie pre konverziu skenovaných tabuliek do štruktúrovaného, upraviteľného a vyhľadávateľného textu.

 Slovenčina