Aspose.PDF Text Extractor สำหรับ .NET

Aspose.PDF Text Extractor for .NET เป็นปลั๊กอินที่มุ่งเน้นให้ผู้พัฒนาสามารถ استخراجข้อความบริสุทธิ์หรือเรียบจาก คู่มือ PDF เป็นเอกสาร มันตัดออกรูปแบบและองค์ประกอบกราฟิกให้เนื้อหาข้อความบริสุทธิ์ที่สามารถ indexed, analyzed, หรือแปลงภายในแอพ .NET.

เริ่มต้น

การติดตั้งและการตั้งค่า

ติดตั้ง Aspose.PDF via NuGet หรือดาวน์โหลดการประกอบโดยตรง.
การตั้งค่าใบอนุญาตวัดก่อนการสกัด (ด การให้ใบอนุญาตที่มีการวัด ).

คุณสมบัติและฟังก์ชั่น

สารสกัดข้อความราก

สารสกัดการไหลของตัวอักษรที่ไม่ได้เปลี่ยนแปลงจากแต่ละหน้า.
เก็บพื้นที่สีขาวแถบและข้อความที่ซ่อนอย.
มีประโยชน์สําหรับการ indexing หรือ bulk text dumps.

สารสกัดข้อความที่เรียบ

มาตรฐานพื้นที่สีขาวและช่องว่างสําหรับความสามารถในการอ่าน.
เข้าร่วมข้อความที่เกี่ยวข้องทํางานอย่างชาญฉลาด.
Ignores fonts, graphics, และ positioning.

Page และ Range-Based Extraction

สารสกัดข้อความจากเอกสารทั้งหมดหรือแถวหน้าเฉพาะ.
ลดการใช้หน่วยความจําโดยการจํากัดช่วง.

การสกัดตามภูมิภาค

รายละเอียดภูมิภาคแนวตั้ง (x, y, ความกว้างความสูง).
สารสกัดข้อความจากหัวขาหรือคอลัมน.
เหมาะสําหรับการจัดตั้งโครงสร้าง.

การกรองและทําความสะอาดข้อความ

ลบการติดตามควบคุมตัวอักษรที่ไม่สามารถพิมพ์ได้และพื้นที่สีขาวเพิ่มเติม.
ตัวเลือกยกเลิกข้อความจากบันทึก fields หรือชั้นที่ซ่อนอย.

การสนับสนุน PDF ที่เข้ารหัส

เปิดไฟล์ PDF ที่ได้รับการป้องกันด้วยรหัสผ่านโดยการจัดหาใบรับรอง.
APIs การสกัดจะถอดรหัสโดยอัตโนมัติในระหว่างการประมวลผล.

Unicode และ Encoding

การส่งออกใน UTF-8 หรือการเข้ารหัสที่ระบ.
สนับสนุนสคริปต์ที่ซับซ้อนภาษาขวาและ Unicode glyphs.

ประสิทธิภาพและการแข่งขัน

การสกัดบนพื้นฐานของกระแสช่วยลดการสะท้อนของหน่วยความจํา.
API ที่ปลอดภัยแบบเครือข่ายช่วยให้การประมวลผลแบบ parallel ของไฟล์ PDF จํานวนมาก.

ตัวอย่างรหัส: การสกัดข้อความจาก PDF

// Define input file
var inputPath = Path.Combine(@"C:\Samples\", "sample.pdf");

// Create text extractor instance
var extractor = new TextExtractor();

// Configure extraction options
var options = new TextExtractorOptions
{
    Mode = TextExtractionMode.PlainText
};

// Add input
options.AddInput(new FileDataSource(inputPath));

// Process extraction
var resultContainer = extractor.Process(options);

// Retrieve text result
var textResult = resultContainer.ResultCollection[0];
Console.WriteLine(textResult);

เคล็ดลับและการปฏิบัติที่ดีที่สุด

เลือกโหมดการสกัดตามความต้องการ: วัตถุดิบสําหรับการดัชนีแบนสําหรับการอ่าน.
จํากัด การสกัดไปยังแถวหรือภูมิภาคเพื่อปรับปรุงประสิทธิภาพ.
ใช้ตัวกรองชั่วคราวเพื่อให้ง่ายต่อการประมวลผลหลัง.
แถบตัวอย่างที่ได้รับการเข้ารหัสเมื่อใช้ PDF ที่ได้รับการรักษาความปลอดภัยอีกครั้ง.
Tune thread count และ buffer ขนาดสําหรับกระแสทํางานขนาดใหญ.
การตั้งค่าใบอนุญาตในการเริ่มต้นเพื่อหลีกเลี่ยงการแจ้งเตือนการประเมิน.

คําถามที่ถามบ่อย

**โหมดการสกัดใดที่ได้รับการสนับสนุน?**สาม: สารสกัดจากวัตถุดิบและพื้นฐานภูมิภาค.

**ฉันสามารถ استخراجข้อความจากไฟล์ PDF ที่มีการป้องกันรหัสผ่านได้หรือไม?**ใช่โดยการให้รหัสผ่านที่ถูกต้องข้อความสามารถสกัดได้อย่างปลอดภัย.

**มันสนับสนุนการเขียนที่ซ้ายและซับซ้อนหรือไม?**ใช่สคริปต์ Unicode และ RTL (เช่นภาษาอาหรับ ภาษาฮีเบิล) ได้รับการสนับสนุนอย่างเต็มท.

**ปลั๊กอินนี้แตกต่างจากสมุด Aspose.PDF เต็มอย่างไร?**ปลั๊กอินนี้มีน้ําหนักเบาและได้รับการปรับปรุงสําหรับการ استخراجข้อความเท่านั้นในขณะที่ Aspose.PDF ให้ API การจัดการ PDF แบบเต็มรูปแบบ.

**การสกัด thread-ปลอดภัยหรือไม?**ใช่การดําเนินงานมีความปลอดภัยบนพื้นฐานของเอกสารสําหรับการประมวลผลร่วมกัน.