2 พฤษภาคม 2560

Published พฤษภาคม 02, 2560 by with 3 comments

PyThaiNLP - โมดูล NLP ภาษาไทยใน Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้จะพาผู้อ่านไปใช้งาน PyThaiNLP กันครับ


โมดูล PyThaiNLP เป็นโมดูลที่ถูกพัฒนาขึ้นเพื่องานวิจัยและพัฒนาการประมวลภาษาธรรมชาติภาษาไทยในภาษา Python

พัฒนาโดย นาย วรรณพงษ์  ภัททิยไพบูลย์

 • รองรับทั้ง Python 2.7 และ Python 3.4+
 • ใช้ Apache Software License 2.0
โดยปัจจุบันมีความสามารถดังนี้

 • ตัดคำภาษาไทย
 • ถอดเสียงภาษาไทยเป็น Latin
 • Postaggers ภาษาไทย
 • WordNet ภาษาไทย
 • อ่านตัวเลขเป็นข้อความภาษาไทย
 • เรียงจำนวนคำของประโยค
 • แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
 • เช็คคำผิดในภาษาไทย
 • และอื่น ๆ
การติดตั้ง

สำหรับผู้ใช้งาน Windows ให้ทำการโหลดไฟล์ whl ของ pyicu มาติดตั้งก่อน จาก http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyicu แล้วใช้คำสั่ง pip install pythainlp

สำหรับ Mac อ่านได้ที่ https://github.com/pythainlp/pythainlp

สำหรับผู้ใช้งาน OS อื่น ๆ ใช้คำสั่ง pip install pythainlp

การใช้งาน

เนื่องจากเอกสารของ PyThaiNLP กำลังอยู่ในช่วงกำลังปรับปรุง สำหรับผู้ใช้งาน Python 2.7 ให้ใส่ u'สตริง' ทุกครั้ง
การตัดคำไทย
# -*- coding: utf-8 -*-
from pythainlp.tokenize import word_tokenize
a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' # u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' ใน Python 2.7
b = word_tokenize(a)
print(b) # ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'เป็น', 'คนไทย']
อ่านเอกสารได้ที https://sites.google.com/view/pythainlp
เข้าไปช่วยกันพัฒนาได้ที่ https://github.com/pythainlp/pythainlp

3 ความคิดเห็น:

 1. pip install pythainlp <<< ลงไม่ได้

  ตอบลบ
  คำตอบ
  1. ไม่ทราบว่าติดปัญหาอะไรครับ

   ลบ
  2. ตอนนนี้แก้ได้แล้วครับ ติดตุงที่ Microsoft Visual C++ 14.0 Build Tools กับ python 3
   Microsoft Visual C++ 9.0 Build Tools กับ python 2.7

   ลบ

แสดงความคิดเห็นได้ครับ :)