Aspose.PDF Text Extractor สำหรับ .NET
Aspose.PDF Text Extractor for .NET เป็นปลั๊กอินที่มุ่งเน้นให้ผู้พัฒนาสามารถ استخراجข้อความบริสุทธิ์หรือเรียบจาก คู่มือ PDF เป็นเอกสาร มันตัดออกรูปแบบและองค์ประกอบกราฟิกให้เนื้อหาข้อความบริสุทธิ์ที่สามารถ indexed, analyzed, หรือแปลงภายในแอพ .NET.
เริ่มต้น
การติดตั้งและการตั้งค่า
- ติดตั้ง
Aspose.PDFvia NuGet หรือดาวน์โหลดการประกอบโดยตรง. - การตั้งค่าใบอนุญาตวัดก่อนการสกัด (ด การให้ใบอนุญาตที่มีการวัด ).
คุณสมบัติและฟังก์ชั่น
สารสกัดข้อความราก
- สารสกัดการไหลของตัวอักษรที่ไม่ได้เปลี่ยนแปลงจากแต่ละหน้า.
- เก็บพื้นที่สีขาวแถบและข้อความที่ซ่อนอย.
- มีประโยชน์สําหรับการ indexing หรือ bulk text dumps.
สารสกัดข้อความที่เรียบ
- มาตรฐานพื้นที่สีขาวและช่องว่างสําหรับความสามารถในการอ่าน.
- เข้าร่วมข้อความที่เกี่ยวข้องทํางานอย่างชาญฉลาด.
- Ignores fonts, graphics, และ positioning.
Page และ Range-Based Extraction
- สารสกัดข้อความจากเอกสารทั้งหมดหรือแถวหน้าเฉพาะ.
- ลดการใช้หน่วยความจําโดยการจํากัดช่วง.
การสกัดตามภูมิภาค
- รายละเอียดภูมิภาคแนวตั้ง (x, y, ความกว้างความสูง).
- สารสกัดข้อความจากหัวขาหรือคอลัมน.
- เหมาะสําหรับการจัดตั้งโครงสร้าง.
การกรองและทําความสะอาดข้อความ
- ลบการติดตามควบคุมตัวอักษรที่ไม่สามารถพิมพ์ได้และพื้นที่สีขาวเพิ่มเติม.
- ตัวเลือกยกเลิกข้อความจากบันทึก fields หรือชั้นที่ซ่อนอย.
การสนับสนุน PDF ที่เข้ารหัส
- เปิดไฟล์ PDF ที่ได้รับการป้องกันด้วยรหัสผ่านโดยการจัดหาใบรับรอง.
- APIs การสกัดจะถอดรหัสโดยอัตโนมัติในระหว่างการประมวลผล.
Unicode และ Encoding
- การส่งออกใน UTF-8 หรือการเข้ารหัสที่ระบ.
- สนับสนุนสคริปต์ที่ซับซ้อนภาษาขวาและ Unicode glyphs.
ประสิทธิภาพและการแข่งขัน
- การสกัดบนพื้นฐานของกระแสช่วยลดการสะท้อนของหน่วยความจํา.
- API ที่ปลอดภัยแบบเครือข่ายช่วยให้การประมวลผลแบบ parallel ของไฟล์ PDF จํานวนมาก.
ตัวอย่างรหัส: การสกัดข้อความจาก PDF
// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");
// Create text extractor instance
var extractor = new TextExtractor();
// Configure extraction options
var options = new TextExtractorOptions
{
Mode = TextExtractionMode.PlainText
};
// Add input
options.AddInput(new FileDataSource(inputPath));
// Process extraction
var resultContainer = extractor.Process(options);
// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);เคล็ดลับและการปฏิบัติที่ดีที่สุด
- เลือกโหมดการสกัดตามความต้องการ: วัตถุดิบสําหรับการดัชนีแบนสําหรับการอ่าน.
- จํากัด การสกัดไปยังแถวหรือภูมิภาคเพื่อปรับปรุงประสิทธิภาพ.
- ใช้ตัวกรองชั่วคราวเพื่อให้ง่ายต่อการประมวลผลหลัง.
- แถบตัวอย่างที่ได้รับการเข้ารหัสเมื่อใช้ PDF ที่ได้รับการรักษาความปลอดภัยอีกครั้ง.
- Tune thread count และ buffer ขนาดสําหรับกระแสทํางานขนาดใหญ.
- การตั้งค่าใบอนุญาตในการเริ่มต้นเพื่อหลีกเลี่ยงการแจ้งเตือนการประเมิน.
คําถามที่ถามบ่อย
**โหมดการสกัดใดที่ได้รับการสนับสนุน?**สาม: สารสกัดจากวัตถุดิบและพื้นฐานภูมิภาค.
**ฉันสามารถ استخراجข้อความจากไฟล์ PDF ที่มีการป้องกันรหัสผ่านได้หรือไม?**ใช่โดยการให้รหัสผ่านที่ถูกต้องข้อความสามารถสกัดได้อย่างปลอดภัย.
**มันสนับสนุนการเขียนที่ซ้ายและซับซ้อนหรือไม?**ใช่สคริปต์ Unicode และ RTL (เช่นภาษาอาหรับ ภาษาฮีเบิล) ได้รับการสนับสนุนอย่างเต็มท.
**ปลั๊กอินนี้แตกต่างจากสมุด Aspose.PDF เต็มอย่างไร?**ปลั๊กอินนี้มีน้ําหนักเบาและได้รับการปรับปรุงสําหรับการ استخراجข้อความเท่านั้นในขณะที่ Aspose.PDF ให้ API การจัดการ PDF แบบเต็มรูปแบบ.
**การสกัด thread-ปลอดภัยหรือไม?**ใช่การดําเนินงานมีความปลอดภัยบนพื้นฐานของเอกสารสําหรับการประมวลผลร่วมกัน.