Aspose.PDF Text Extractor สำหรับ .NET
Aspose.PDF Text Extractor for .NET เป็นปลั๊กอินที่มุ่งเน้นที่ช่วยให้ผู้พัฒนาสามารถ استخراجข้อความบริสุทธิ์หรือเรียบจากเอกสาร PDF มันตัดออกการจัดรูปแบบและองค์ประกอบกราฟิกให้เนื้อหาข้อความสะอาดที่สามารถ indexed, analyzed, หรือแปลงภายในแอพพลิเคชัน .Net
เริ่มต้น
การติดตั้งและการตั้งค่า
- ติดตั้ง
Aspose.PDF
via NuGet หรือดาวน์โหลดการประกอบโดยตรง - การตั้งค่าใบอนุญาตวัดก่อนการสกัด (ดู การให้ใบอนุญาตที่มีการวัด ).
คุณสมบัติและฟังก์ชั่น
สารสกัดข้อความราก
- สารสกัดการไหลของตัวอักษรที่ไม่ได้เปลี่ยนแปลงจากแต่ละหน้า
- เก็บพื้นที่สีขาวแถบและข้อความที่ซ่อนอยู่
- มีประโยชน์สําหรับการ indexing หรือ bulk text dumps
สารสกัดข้อความที่เรียบ
- มาตรฐานพื้นที่สีขาวและช่องว่างสําหรับความสามารถในการอ่าน
- เข้าร่วมข้อความที่เกี่ยวข้องทํางานอย่างชาญฉลาด
- Ignores fonts, graphics, และ positioning.
Page และ Range-Based Extraction
- สารสกัดข้อความจากเอกสารทั้งหมดหรือแถวหน้าเฉพาะ
- ลดการใช้หน่วยความจําโดยการจํากัดช่วง
การสกัดตามภูมิภาค
- รายละเอียดภูมิภาคแนวตั้ง (x, y, ความกว้างความสูง)
- สารสกัดข้อความจากหัวขาหรือคอลัมน์
- เหมาะสําหรับการจัดตั้งโครงสร้าง
การกรองและทําความสะอาดข้อความ
- ลบการติดตามควบคุมตัวอักษรที่ไม่สามารถพิมพ์ได้และพื้นที่สีขาวเพิ่มเติม
- ตัวเลือกยกเลิกข้อความจากบันทึก fields หรือชั้นที่ซ่อนอยู่
การสนับสนุน PDF ที่เข้ารหัส
- เปิดไฟล์ PDF ที่ได้รับการป้องกันด้วยรหัสผ่านโดยการจัดหาใบรับรอง
- APIs การสกัดจะถอดรหัสโดยอัตโนมัติในระหว่างการประมวลผล
Unicode และ Encoding
- การส่งออกใน UTF-8 หรือการเข้ารหัสที่ระบุ
- สนับสนุนสคริปต์ที่ซับซ้อนภาษาขวาและ Unicode glyphs
ประสิทธิภาพและการแข่งขัน
- การสกัดบนพื้นฐานของกระแสช่วยลดการสะท้อนของหน่วยความจํา
- API ที่ปลอดภัยแบบเครือข่ายช่วยให้การประมวลผลแบบ parallel ของไฟล์ PDF จํานวนมาก
ตัวอย่างรหัส: การสกัดข้อความจาก PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);
เคล็ดลับและการปฏิบัติที่ดีที่สุด
- เลือกโหมดการสกัดตามความต้องการ: วัตถุดิบสําหรับการดัชนีแบนสําหรับการอ่าน
- จํากัด การสกัดไปยังแถวหรือภูมิภาคเพื่อปรับปรุงประสิทธิภาพ
- ใช้ตัวกรองชั่วคราวเพื่อให้ง่ายต่อการประมวลผลหลัง
- แถบตัวอย่างที่ได้รับการเข้ารหัสเมื่อใช้ PDF ที่ได้รับการรักษาความปลอดภัยอีกครั้ง
- Tune thread count และ buffer ขนาดสําหรับกระแสทํางานขนาดใหญ่
- การตั้งค่าใบอนุญาตในการเริ่มต้นเพื่อหลีกเลี่ยงการแจ้งเตือนการประเมิน
คําถามที่ถามบ่อย
**โหมดการสกัดใดที่ได้รับการสนับสนุน?**สาม: สารสกัดจากวัตถุดิบและพื้นฐานภูมิภาค
ฉันสามารถ استخراجข้อความจากไฟล์ PDF ที่มีการป้องกันรหัสผ่านได้หรือไม่ใช่โดยการให้รหัสผ่านที่ถูกต้องข้อความสามารถสกัดได้อย่างปลอดภัย
มันสนับสนุนการเขียนที่ซ้ายและซับซ้อนหรือไม่ใช่สคริปต์ Unicode และ RTL (เช่นภาษาอาหรับ ภาษาฮีเบิล) ได้รับการสนับสนุนอย่างเต็มที่
**ปลั๊กอินนี้แตกต่างจากสมุด Aspose.PDF เต็มอย่างไร?**ปลั๊กอินนี้มีน้ําหนักเบาและได้รับการปรับปรุงสําหรับการ استخراجข้อความเท่านั้นในขณะที่ Aspose.PDF ให้ API การจัดการ PDF แบบเต็มรูปแบบ
การสกัด thread-ปลอดภัยหรือไม่ใช่การดําเนินงานมีความปลอดภัยบนพื้นฐานของเอกสารสําหรับการประมวลผลร่วมกัน