23 มิถุนายน 2560

Published มิถุนายน 23, 2560 by with 0 comment

Word Cloud ภาษาไทยใน Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้ผมจะพาผู้อ่านไปทำ Word Cloud ภาษาไทยใน Python กันครับ


Word Cloud หรือกลุ่มคำ คือ การจับกลุ่มคำโดยเรียงจากคำที่มีมากที่สุดไปน้อยที่สุด เป็นประโยชน์ในการทำรายงานข้อความ เพื่อให้มองเห็นคำที่ถูกใช้มากที่สุดได้ง่ายขึ้น
บทความนี้ใช้ได้เฉพาะใน Python 3 เท่านั้น

ในภาษาไพทอน เราสามารถทำ Word Cloud  ได้ด้วยโมดูล wordcloud ซึ่งติดตั้งได้ด้วยคำสั่ง pip install wordcloud

ก่อนใช้งาน ทำการติดตั้ง PyThaiNLP ก่อน (อ่านวิธีติดตั้งได้จากบทความ PyThaiNLP - โมดูล NLP ภาษาไทยใน Python ) แล้วทำการโหลด Font ภาษาไทยที่ต้องการใช้มาก่อน บทความนี้เลือกใช้งาน TH Sarabun New โหลดได้จาก http://www.f0nt.com/release/th-sarabun-new/

ในโมดูล Word Cloud เราสามารถทำ Word Cloud ได้ง่าย ๆ ดังนี้


ผลลัพธ์
Word Cloud ภาษาไทยใน Python

เนื่องจาก Python มี Bug กับภาษาไทยตามที่ผมได้ที่ผมได้ตั้งกระทู้ถามนักพัฒนาโมดูล Word Cloud ไว้ https://github.com/amueller/word_cloud/issues/272 ผมจึงใช้วิธีตามที่นักพัฒนาโมดูลได้แนะนำไว้

และต่อไปผมจะใช้ข้อความจากบทความ "สสส. เปิดตัว “พระรอด 2.0” พระพุทธรูปหน้ารถ ส่งเสียงพระพยอมเตือนหากขับเร็วเกิน" โดยคุณ twometre จาก Blognone มาลองใช้ทำ Word Cloud

ผลลัพธ์


อ่านเอกสารโมดูล Word Cloud  ได้ที่ http://amueller.github.io/word_cloud/

ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)