27 มิถุนายน 2558

Published 6/27/2558 by with 0 comment

โมดูล RegEx สำหรับงาน Big Data ในภาษา Python

สวัสดีผู้อ่านทุกท่านครับ ในการเขียนแพตเทิร์น (Pattern) สำหรับใช้แยกแยะข้อมูลออกจากกันใน Regular Expressions (RegEx) ในการเขียนโปรแกรมด้วยภาษา Python เรามักจะนึกถึงไลบรารีของ Python ที่ชื่อว่า re (อ่านเพิ่มเติมได้จากบทความ Python Regular Expressions) แต่โมดูล re สำหรับ RegEx ในภาษา Python ไม่ได้ถูกออกแบบมาใช้งานได้กับข้อมูลขนาดใหญ่ระดับ Big Data ที่ไฟล์ข้อมูลอาจมีขนาดที่ใหญ่ระดับหลายร้อยเมกกะไบต์ GB หรือมากกว่า

ผมขอแนะนำโมดูล Regular expression สำหรับงาน Big Data ในภาษา Python โมดูลนี้มีชื่อว่า "jsre" เป็นโมดูลสำหรับงานนิติดิจิตอล (digital forensics) และข้อมูลระดับ Big Data บนภาษา Python โดยถูกออกแบบและเขียนบนภาษาซีเพื่อให้รองรับการค้นหาข้อมูลบัฟเฟอร์ไบต์ขนาดใหญ่ ทำให้มีประสิทธิภาพการทำงานที่รวดเร็ว รองรับ Unicode Encoding และยังมี matching engine ขนาดเล็กและคงที่ต่ำกว่า 10 MB ช่วยให้สามารถกระจายการประมวลผลได้หลายซีพียู

โมดูลนี้ใช้ License: BSD New และรองรับทั้ง Python 2 , Python 3 ครับ

สามารถติดตั้งได้โดยใช้คำสั่ง pip (ตรวจสอบการตั้งค่า C compiler กับ Python ให้เรียบร้อยนะครับ) :
pip install jsre

อ่านเอกสารการใช้งานได้ที่ https://pythonhosted.org/jsre/
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)