Aspose.OCR tabula uz teksta .NET
Aspose.OCR Table to Text for .NET ir spēcīgs plugins, kas ļauj izstrādātājiem ekstraktu tekstu no skenētajām vai fotografētām tabulām ar augstu precizitāti. Izmantojot uzlabotus mašīnas mācīšanās algoritmus un neirālas tīklu, tas atklāj tabulas struktūras, izvilk šūnu līmeņa tekstu un organizē visu meklējamo, rediģējamu izplatīšanas lapu vai tabulu datu struktūrās.
Instalācija un uzstādīšana
Lai sāktu, instalējiet Aspose.OCR tabulu uz teksta paketi, izmantojot NuGet vai lejupielādējiet to no Aspose serveriem Installation Ieteikumi detalizētiem soļiem.Pilna funkcionalitāte, konfigurējot mērīto licencēšanu, kā aprakstīts Mērtēta licencēšana dokumentācija.
Iezīmes un funkcionalitātes
Tabulas atklāšana un struktūras atpazīšana
- Tas automātiski atklāj tabulas robežas skenētajos vai fotografētos attēlos, pat ja šūnas ir izkliedētas, rotētas vai nevienlīdzīgi apgaismotas.
- Tas atbalsta daudzkrāsu un vairāku slāņu izkārtojumus, nestāsti tabulas un atšķirīgu šūnu izmēru.
- Nodrošina riteņu un šūnu hierarhiālu pārstāvību vienkāršotajā pēcapstrādes procesā.
Cēloņu teksta ekstrakcija
- Atzīt tekstu katrā šūnā, izmantojot uzlabotus OCR algoritmus, saglabājot līnijas pārtraukumus, kapitalizāciju un skaitļu formāšanu.
- Pārvaldīt vairākas valodas vienā tabulā ar konfigurējamiem valodu prioritātēm.
- Korektē izkropļojumus, piemēram, slīpumu, zemu kontrastu vai attēla troksni, lai palielinātu precizitāti.
Galda rekonstrukcija un eksports
- Atjaunoto tabulu atjauno .NET datu struktūrās (piemēram, DataTable) vai eksportē tos CSV/TSV formātā.
- Izveido rediģējamu lapu failus (XLSX), kas var atvērt Excel vai citus rīkus.
- Saglabā pamata šūnu formatēšanu (alignāciju, robežas) un eksporta koordinātus uzlabotajiem darba plūsmām.
Meklējams un rediģēts rezultāts
- Izstrādā meklējamus teksta slāņus PDF eksports, kas padara tabulas saturu indeksējamu.
- Integrē bezjēdzīgi ar Aspose.Cells, lai veiktu paplašinātas plašsaziņas līdzekļu darbības, piemēram, formulas un grafiku.
- Ļauj ievietot izņemto saturu datubāzēs vai lejupslīdes apstrādes caurulēs.
Izdevums un skalabilitāte
- Optimizēts lielu datu kopumu kompleksa apstrādei ar konfigurējamu triecienu un atmiņas pārvaldību.
- Pārsniedz attēla datus tieši uz OCR dzinēju, samazinot disku I/O.
- Nodrošina progresa atsauksmes un atcelšanas tokenus ilgtermiņa operācijām.
Augstākā personalizācija
- Region-of-interest (ROI) atbalsts, lai ierobežotu atklāšanu uz konkrētām jomām ātrākai apstrādei.
- Konfigurējamas uzticības robežas, lai filtrētu zemu uzticas rezultātus.
- Priekš- un pēcapstrādes slāņi (piemēroti filtri, izkliedēšanas algoritmi vai validatori).
Piemērs: Ekstrakts teksts no skenētas vai fotografētas tabulas
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Parastās lietojumprogrammas
- Struktūru dati no finanšu pārskatiem.
- Pārvērst skenētas veidlapas un lietojumprogrammas plašsaziņas līdzekļos.
- Datu ievades uzdevumu automatizēšana, pārveidojot tabulas attēlus uz rediģējamiem formātiem.
Padomi un labākās prakses
- Izmantojiet attēlus ar vismaz 300 DPI un labu kontrastu, lai iegūtu labākus rezultātus.
- Pre-crop vai deskew attēlus, lai izolētu tabulas reģionus.
- Lejupielādēt tikai nepieciešamos valodas paketes, lai samazinātu atmiņas izmantošanu.
- Uzklājiet uzticības robežas, lai līdzsvarotu precizitāti un atmiņu.
- Validējiet rekonstruētās tabulas pret gaidāmajām shēmām pirms importēšanas uz datu bāzēm.
Izmantojot šīs pamatnostādnes un izmantojot tās tabulas atpazīšanas iespējas, Aspose.OCR Table to Text for .NET nodrošina izstrādātājiem uzticamu risinājumu skenēto tabulu pārveidošanai strukturētajā, rediģējamā un meklējamajā tekstā.