2 พฤษภาคม 2560

Published พฤษภาคม 02, 2560 by with 3 comments

PyThaiNLP - โมดูล NLP ภาษาไทยใน Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้จะพาผู้อ่านไปใช้งาน PyThaiNLP กันครับ


โมดูล PyThaiNLP เป็นโมดูลที่ถูกพัฒนาขึ้นเพื่องานวิจัยและพัฒนาการประมวลภาษาธรรมชาติภาษาไทยในภาษา Python

พัฒนาโดย นาย วรรณพงษ์  ภัททิยไพบูลย์

  • รองรับทั้ง Python 2.7 และ Python 3.4+
  • ใช้ Apache Software License 2.0
โดยปัจจุบันมีความสามารถดังนี้

  • ตัดคำภาษาไทย
  • ถอดเสียงภาษาไทยเป็น Latin
  • Postaggers ภาษาไทย
  • WordNet ภาษาไทย
  • อ่านตัวเลขเป็นข้อความภาษาไทย
  • เรียงจำนวนคำของประโยค
  • แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
  • เช็คคำผิดในภาษาไทย
  • และอื่น ๆ
การติดตั้ง

สำหรับผู้ใช้งาน Windows ให้ทำการโหลดไฟล์ whl ของ pyicu มาติดตั้งก่อน จาก http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyicu แล้วใช้คำสั่ง pip install pythainlp

สำหรับ Mac อ่านได้ที่ https://github.com/pythainlp/pythainlp

สำหรับผู้ใช้งาน OS อื่น ๆ ใช้คำสั่ง pip install pythainlp

การใช้งาน

เนื่องจากเอกสารของ PyThaiNLP กำลังอยู่ในช่วงกำลังปรับปรุง สำหรับผู้ใช้งาน Python 2.7 ให้ใส่ u'สตริง' ทุกครั้ง
การตัดคำไทย
# -*- coding: utf-8 -*-
from pythainlp.tokenize import word_tokenize
a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' # u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' ใน Python 2.7
b = word_tokenize(a)
print(b) # ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'เป็น', 'คนไทย']
อ่านเอกสารได้ที https://sites.google.com/view/pythainlp
เข้าไปช่วยกันพัฒนาได้ที่ https://github.com/pythainlp/pythainlp

3 ความคิดเห็น:

  1. pip install pythainlp <<< ลงไม่ได้

    ตอบลบ
    คำตอบ
    1. ไม่ทราบว่าติดปัญหาอะไรครับ

      ลบ
    2. ตอนนนี้แก้ได้แล้วครับ ติดตุงที่ Microsoft Visual C++ 14.0 Build Tools กับ python 3
      Microsoft Visual C++ 9.0 Build Tools กับ python 2.7

      ลบ

แสดงความคิดเห็นได้ครับ :)