Aspose.OCR Tabulka na text pro .NET
Aspose.OCR Table to Text for .NET je výkonný plugin, který umožňuje vývojářům s vysokou přesností extrahovat text z skenovaných nebo fotografovaných tabulek. Odstraňování pokročilých algoritmů strojového učení a neurálních sítí detekuje struktury stolního textu, vytváří text na úrovni buňky a organizuje vše do vyhledatelných, editovatelných šířek nebo datových struktur.
Instalace a nastavení
Chcete-li začít, nainstalujte balíček Aspose.OCR Table to Text prostřednictvím aplikace NuGet nebo stáhněte si sadu z serverů ASPOSE Instalace Pokyny pro podrobné kroky.Povolit plnou funkčnost konfigurací měřené licence, jak je popsáno v Licencování na bázi měření a dokumentace.
Funkce a funkce
Detekce tabulky a rozpoznávání struktury
- Automaticky detekuje hranice tabulky ve skenovaných nebo fotografovaných snímcích, a to i v případě, že jsou buňky rozptýlené, otáčené nebo nerovnoměrně osvětleny.
- Podporuje rozložení multi-rouby a více sloupců, nestěné tabulky a různé velikosti buněk.
- Poskytuje hierarchickou reprezentaci řádků a buněk pro zjednodušené postprocesování.
Textová extrakce buněk
- Rozpoznává text uvnitř každé buňky pomocí pokročilých algoritmů OCR, zachovává linie, kapitalizace a numerické formátování.
- Jedná se o více jazyků v jedné tabulce s konfigurovatelnými jazykovými prioritami.
- Opravuje poruchy, jako je šik, nízký kontrast nebo zvuk obrazu, aby se zvýšila přesnost.
Rekonstrukce a vývoz
- Obnovuje detekované tabulky do datových struktur .NET (např. DataTable) nebo je exportuje do formátů CSV/TSV.
- Vytváří editovatelné soubory spreadsheet (XLSX), které lze otevřít v Excelu nebo jiných nástrojů.
- Udržuje základní formátování buněk (alignment, hranice) a vývozní koordináty pro pokročilé pracovní toky.
Vyhledávaný a upravený výstup
- Vytváří vyhledávané textové vrstvy v PDF vývozů, čímž je obsah tabulky indexovatelný.
- Integruje bezproblémově s Aspose.Cells pro pokročilé operace spreadsheet, jako jsou vzorce a grafy.
- Umožňuje vložit extrahovaný obsah do databází nebo downstreamových zpracovatelských potrubí.
Výkon a skalovatelnost
- Optimalizován pro zpracování batchů velkých datových souborů s konfigurovatelným šroubováním a řízením paměti.
- Data snímku proudí přímo do motoru OCR, což minimalizuje disk I/O.
- Poskytuje pokročilé callbacks a zrušení tokenů pro dlouhodobé operace.
Pokročilá personalizace
- Region-of-interest (ROI) podporuje omezení detekce na určité oblasti pro rychlejší zpracování.
- Konfigurovatelné hranici důvěry pro filtrování výsledků s nízkým důvery.
- Hooks pro předchozí a po zpracování (přizpůsobené filtry, deskovní algoritmy nebo validátory).
Příklad: Odstraňte text z skenovaných nebo fotografovaných tabulek
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Běžné použití
- Využití strukturovaných údajů z finančních zpráv.
- Přeměna skenovaných formulářů a aplikací na spreadsheets.
- Automatizace úkolů vstupu dat přeměnou tabulkových obrázků do editovatelných formátů.
Tipy a nejlepší postupy
- Použijte obrázky s minimálně 300 DPI a dobrým kontrastem pro nejlepší výsledky.
- Pre-crop nebo deskew obrázky izolovat tabulkové oblasti.
- Nabíjejte pouze potřebné jazykové balíčky, abyste snížili používání paměti.
- Ukončete hranici důvěry, abyste vyvážili přesnost a vzpomínku.
- Validujte rekonstruované tabulky proti očekávaným schématům před importem do databází.
Sledováním těchto pokynů a využíváním schopností rozpoznávání tabulek poskytuje ASPOSE.OCR Table to Text pro .NET vývojářům spolehlivé řešení pro konverzi skenovaných tabel do strukturovaného, upravitelného a vyhledatelného textu.