Aspose.OCR tabel til tekst for .NET
Aspose.OCR Table to Text for .NET er en kraftfuld plugin, der gør det muligt for udviklere at udveksle tekst fra scannede eller fotograferede tabeller med høj nøjagtighed. Levering avancerede maskinlæring algoritmer og neurale netværk, det opdager tabellestrukturer, trækker tekst på celle-niveau, og organiserer alt i søgbare, redigerbare spreadsheets eller tabular data strukturer.
Installation og installation
For at komme i gang, skal du installere Aspose.OCR Table to Text-pakken via NuGet eller downloade assemblyen fra aspose servere Installation Guide til detaljerede trin.Mulighed for fuld funktionalitet ved at konfigurere målt licens som beskrevet i Målt licens og dokumentation.
Funktioner og funktioner
Tabelldetektion og struktur anerkendelse
- Det opdager automatisk bordgrænser i scannede eller fotograferede billeder, selv om cellerne er skudt, roteret eller ubegrænset.
- Det understøtter multi-ro og flerkolonne layouter, nestede tabeller og forskellige cellestørrelser.
- Det giver en hierarkisk repræsentation af rækker og celler til forenklet post-behandling.
Cell tekst udvælgelse
- Det anerkender tekst inden for hver celle ved hjælp af avancerede OCR-algoritmer, bevarer linjebrud, kapitalisering og numerisk formatering.
- Hanter flere sprog i en enkelt tabel med konfigurable sprogprioriteter.
- Korrigerer forvrængninger som skov, lav kontrast eller billedstøj for at øge nøjagtigheden.
Rekonstruktion og eksport
- Rekonstruerer detekterede tabeller til .NET-datastrukturer (f.eks. DataTable) eller eksporterer dem til CSV/TSV-format.
- Genererer redigerbare spreadsheet-filer (XLSX), som kan åbnes i Excel eller andre værktøjer.
- Opbevarer grundlæggende celleformatering (alignment, grænser) og eksportkoordinater for avancerede arbejdsprocesser.
Søgbar og redigerbar udgang
- producerer søgbare tekstlag i PDF Eksport, hvilket gør tabelindhold indekslet.
- Integrerer stramt med Aspose.Cells til avancerede spreadsheet-operationer som formler og diagrammer.
- Tillader indlejring af udvundet indhold i databaser eller downstream-behandlingsrør.
Effektivitet og skalbarhed
- Optimeret til batchbehandling af store datasæt med konfigurerbar trækning og hukommelsesstyring.
- Streams billeddata direkte til OCR-motoren, hvilket minimerer disk I/O.
- Det giver fremskridt callbacks og annullering tokens til langtidsoperationer.
Avanceret tilpasning
- Region-of-interest (ROI) støtte til at begrænse opdagelsen til specifikke områder for hurtigere behandling.
- Konfigurerbare tillidsgrænser til at filtrere resultater med lav tillid.
- Hooks til for- og efterbehandling (anpassede filtre, deskew algoritmer eller validatorer).
Eksempel: Ekstrakter tekst fra scannede eller fotograferede tabeller
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
Gennemsigtig brug af tilfælde
- Udvinding af strukturerede data fra finansielle rapporter.
- Konverter scannede formularer og applikationer til spreadsheets.
- Automatisering af dataindtægtsopgaver ved at omdanne tabelbilleder til redigerbare formater.
Tips og bedste praksis
- Brug billeder med mindst 300 DPI og god kontrast for de bedste resultater.
- Pre-crop eller deskew billeder til at isolere tabelregioner.
- Lad kun de sprogpakker, der er nødvendige for at reducere hukommelsesbruget.
- Tænk tillidsgrænserne for at balancere nøjagtighed og hukommelse.
- Validerer rekonstruerede tabeller mod forventede ordninger, før de importeres til databaser.
Ved at overholde disse retningslinjer og udnytte dets tabelfunktionsevne, giver Aspose.OCR Table to Text for .NET udviklere en pålidelig løsning til at konvertere scannede tabeller til struktureret, redigerbar og søgbart tekst.