아스포즈.OCR 테이블을 .NET용으로 텍스트로 변환
Aspose.OCR Table to Text for .NET은 개발자가 스캔되거나 촬영 된 테이블에서 텍스트를 높은 정확도로 추출 할 수있는 강력한 플러그인입니다. 고급 기계 학습 알고리즘과 신경 네트워크를 제거하여 표 구조를 탐지하고 세포 수준의 문서를 끌어 내고 모든 것을 검색 가능하고 편집 가능한 스파이더 또는 표 데이터 구조로 구성합니다.
설치 및 설정
시작하려면 NuGet를 통해 Aspose.OCR 테이블 텍스트 패키지를 설치하거나 ASPOSE 서버에서 세트를 다운로드하십시오 설치 자세한 단계를 위한 가이드.완전한 기능을 가능하게 하여 측정된 라이센스를 설정하여 계량된 라이선스 다큐멘터리.
특징 및 기능
테이블 탐지 및 구조 인식
- 스캔 또는 촬영 된 이미지에서 테이블 경계를 자동으로 감지하십시오, 심지어 세포가 흔들리거나 회전되거나 불균형하게 빛나는 경우에도.
- 다각 및 다열 배열, 둥근 테이블 및 다양한 세포 크기를 지원합니다.
- 단순화된 포스트 프로세스를 위한 라인과 세포의 히어로리적 표현을 제공합니다.
셀 텍스트 추출
- 각 셀 내의 텍스트를 고급 OCR 알고리즘을 사용하여 인식하고, 라인 붕괴, 자본화 및 숫자 형식을 보존합니다.
- 구성 가능한 언어 우선 순위를 가진 단일 테이블에서 여러 언론을 처리합니다.
- 스케이, 낮은 대조 또는 이미지 소음과 같은 변형을 수정하여 정확성을 향상시킵니다.
테이블 재건 및 수출
- 발견 된 테이블을 .NET 데이터 구조 (예 : DataTable)로 재구성하거나 CSV/TSV 형식으로 수출합니다.
- Excel 또는 다른 도구에서 열 수 있는 편집 가능한 스프레드시트 파일(XLSX)을 생성합니다.
- 기본 세포 형식 (연결, 경계)을 유지하고 고급 작업 흐름을위한 수출 조정.
검색 및 편집 가능한 출력
- 검색 가능한 텍스트 레이어를 생성 PDF에 대하여 수출, 테이블 콘텐츠를 인덱스 할 수 있습니다.
- Aspose.Cells와 무조건 통합하여 수식과 차트링과 같은 고급 스프레드시트 작업을 수행합니다.
- 추출 된 콘텐츠를 데이터베이스 또는 다운 스트림 처리 파이프라인에 삽입할 수 있습니다.
성과 및 스케일성
- 대형 데이터 세트의 배치 처리에 최적화되어 구성 가능한 스트레딩 및 메모리 관리.
- 이미지 데이터를 OCR 엔진으로 직접 전송하여 I/O 디스크를 최소화합니다.
- 진행 전화를 제공하고 오래 지속되는 작업을위한 취소 토큰을 제공합니다.
고급 사용자 정의
- 지역 이익 (ROI) 지원 특정 영역에 대한 탐지 제한, 더 빠른 처리를 위해.
- 낮은 신뢰의 결과를 필터링하기 위해 설정할 수 있는 자신감 한계.
- 사전 및 후 처리 (자정 필터, 드라이브 알고리즘 또는 인증기)를 위한 호크).
예: 스캔 또는 사진 테이블에서 텍스트 추출
Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// Initialize recognition engine
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.SingleImage);
input.Add("source1.png");
input.Add("source2.jpg");
// Configure recognition settings for tables
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.DetectAreasMode = DetectAreasMode.TABLE;
// Recognize table text
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach (Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
// Save results
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
일반적인 사용 사례
- 재무 보고서에서 구조화된 데이터를 추출합니다.
- 스캔된 양식과 응용 프로그램을 스파이더로 변환합니다.
- 데이터 입력 작업을 자동화하여 테이블 이미지를 편집 가능한 형식으로 변환합니다.
팁과 최고의 관행
- 최소 300 DPI와 좋은 대조를 가진 이미지를 사용하여 최상의 결과를 얻으십시오.
- Pre-crop 또는 deskew 이미지를 테이블 지역을 고립시킵니다.
- 메모리 사용을 줄이기 위해 필요한 언어 패키지만 충전합니다.
- 정확성과 기억을 균형 잡기 위해 신뢰의 한계를 설정하십시오.
- 데이터베이스에 가져오기 전에 예상되는 스케줄에 대한 재구성 된 테이블을 검증합니다.
이 지침을 따르고 테이블 인식 기능을 활용함으로써, Aspose.OCR Table to Text for .NET은 개발자에게 스캔된 탭을 구조화, 편집 및 검색 가능한 텍스트로 변환하는 신뢰할 수 있는 솔루션을 제공합니다.