Skip to content

โมดูล RegEx สำหรับงาน Big Data ในภาษา Python

สวัสดีผู้อ่านทุกท่านครับ ในการเขียนแพตเทิร์น (Pattern) สำหรับใช้แยกแยะข้อมูลออกจากกันใน Regular Expressions (RegEx) ในการเขียนโปรแกรมด้วยภาษา Python เรามักจะนึกถึงไลบรารีของ Python ที่ชื่อว่า re (อ่านเพิ่มเติมได้จากบทความ Python Regular Expressions) แต่โมดูล re สำหรับ RegEx ในภาษา Python ไม่ได้ถูกออกแบบมาใช้งานได้กับข้อมูลขนาดใหญ่ระดับ Big Data

ที่ไฟล์ข้อมูลอาจมีขนาดที่ใหญ่ระดับหลายร้อยเมกกะไบต์ GB หรือมากกว่า

ผมขอแนะนำโมดูล Regular expression สำหรับงาน Big Data ในภาษา Python โมดูลนี้มีชื่อว่า "jsre" เป็นโมดูลสำหรับงานนิติดิจิตอล (digital forensics) และข้อมูลระดับ Big Data บนภาษา Python โดยถูกออกแบบและเขียนบนภาษาซีเพื่อให้รองรับการค้นหาข้อมูลบัฟเฟอร์ไบต์ขนาดใหญ่ ทำให้มีประสิทธิภาพการทำงานที่รวดเร็ว รองรับ Unicode Encoding และยังมี matching engine ขนาดเล็กและคงที่ต่ำกว่า 10 MB ช่วยให้สามารถกระจายการประมวลผลได้หลายซีพียู

โมดูลนี้ใช้ License: BSD New และรองรับทั้ง Python 2 , Python 3 ครับ

สามารถติดตั้งได้โดยใช้คำสั่ง pip (ตรวจสอบการตั้งค่า C compiler กับ Python ให้เรียบร้อยนะครับ) :

pip install jsre

อ่านเอกสารการใช้งานได้ที่ https://pythonhosted.org/jsre/
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

Published on Categories ไม่มีหมวดหมู่Tags

About wannaphong

วรรณพงษ์ ภัททิยไพบูลย์ ผู้ดูแลเว็บ wannaphong.com และผู้เขียนบทความบล็อกนี้ นักศึกษาชั้นปีที่ 1 สาขาวิทยาการคอมพิวเตอร์และสารสนเทศ คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์ มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องที่ต้องการถูกทำเครื่องหมาย *