Aspose.OCR lentelė į tekstą .NET
Aspose.OCR Table to Text for .NET yra galingas įrankis, kuris leidžia kūrėjams tiksliai ištraukti tekstą iš skenuojamų ar fotografuotų lentelių. Išplėsto pažangius mašinų mokymosi algoritmus ir neuroninius tinklus, jis aptinka lentelės struktūras, traukia ląstelių lygio tekstas ir organizuoja viską paieškos, redaguojamo skirtukų ar lentelinių duomenų struktūrų.
Įdiegimas ir nustatymas
Norėdami pradėti, įdiegti Aspose.OCR lentelės į teksto pakuotę per NuGet arba atsisiųsti rinkinį iš Aspos serverių Installation Išsamių žingsnių vadovas.Visiškas funkcionalumas suteikiamas konfigūruojant matuojamą licenciją, kaip aprašyta Išmatuota licencija ir dokumentų.
Savybės ir funkcijos
Stalo aptikimas ir struktūros pripažinimas
- Automatiškai aptinka lentelės ribas skenuojamuose ar fotografuotuose vaizduose, net jei ląstelės yra iškreiptos, sukamos arba nevienodai apšviestos.
- Jis palaiko daugialypį ir daugiapakopį išdėstymus, nestuotus lenteles ir skirtingus ląstelių dydžius.
- Teikia eilutės ir ląstelių hierarchinį atstovavimą supaprastintam po apdorojimui.
Ląstelių tekstų ekstrakcija
- Pripažįsta tekstą kiekvienoje ląstelėje, naudodamas pažangius OCR algoritmus, išsaugojant linijos lūžius, kapitalizavimą ir skaitmeninį formatuojimą.
- Veikia keliomis kalbomis vienoje lentelėje su konfigūruojamais kalbos prioritetais.
- Ištaisyti iškraipymus, pavyzdžiui, skydas, mažas kontrastas ar vaizdo triukšmas, siekiant padidinti tikslumą.
Stalo rekonstrukcija ir eksportas
- Rekonstruoja aptiktas lenteles į .NET duomenų struktūras (pvz., DataTable) arba eksportuoja jas į CSV/TSV formatus.
- Sukuria redaguojamus skirtukų failus (XLSX), kuriuos galima atidaryti „Excel“ arba kituose įrankiuose.
- Jis palaiko pagrindinį ląstelių formatavimą (suderinimą, ribas) ir eksporto koordinatus pažangiems darbo srautams.
Paieškos ir redagavimo rezultatai
- Gaminti paieškos tekstų sluoksnius PDF eksportuoti, kad lentelės turinys būtų indeksuojamas.
- Nešvariai integruojamas su Aspose.Cells pažangioms skydliaukės operacijoms, tokioms kaip formulės ir grafikos.
- Leidžia įterpti ištrauktą turinį į duomenų bazes ar apdorojimo vamzdžius.
Veiksmingumas ir skalavimas
- Optimizuota didelių duomenų rinkinių pakuotės apdorojimui su konfigūruojamu srautu ir atminties valdymu.
- Nuotraukų duomenys srautas tiesiai į OCR variklį, sumažinant diską I/O.
- Teikia pažangos skambučių ir atšaukimo tokenų ilgalaikėms operacijoms.
Išplėstinė pritaikymas
- Region-of-interest (ROI) parama apriboti aptikimą konkrečiose srityse, siekiant pagreitinti apdorojimą.
- Konfiguruojami pasitikėjimo ribos, kad būtų galima filtruoti mažai patikimumo rezultatus.
- Prieš ir po apdorojimo (pasirenkamuosius filtrus, iškrovimo algoritmus arba validatorus).
Pavyzdys: Teksto ekstraktas iš skenuojamų ar nuotraukų lentelių
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Dažniausiai naudojami atvejai
- Struktūrizuoti duomenis iš finansinių ataskaitų.
- Skanintų formų ir programų konvertavimas į skirtukus.
- Duomenų įvedimo užduočių automatizavimas paverčiant lentelės vaizdus redaguojamais formatais.
Patarimai ir geriausios praktikos
- Naudokite vaizdus, turinčius mažiausiai 300 dpi ir gerą kontrastą, kad gautumėte geriausius rezultatus.
- Pre-crop arba deskew vaizdai izoliuoti lentelės regionus.
- Atsisiųskite tik reikiamus kalbos paketus, kad sumažintumėte atminties naudojimą.
- Įdėkite pasitikėjimo ribas, kad subalansuotumėte tikslumą ir prisiminimą.
- Atnaujintus lenteles prieš numatomas schemas patvirtinkite prieš importuojant į duomenų bazes.
Atsižvelgiant į šias gaires ir naudodamasis savo lentelės atpažinimo galimybėmis, „Aspose.OCR Table to Text for .NET“ suteikia kūrėjams patikimą sprendimą, skirtą skanintų lentelių konvertavimui į struktūrizuotą, redaguojamą ir paieškos tekstą.