โมดูล PyThaiNLP เป็นโมดูลที่ถูกพัฒนาขึ้นเพื่องานวิจัยและพัฒนาการประมวลภาษาธรรมชาติภาษาไทยในภาษา Python
พัฒนาโดย นาย วรรณพงษ์ ภัททิยไพบูลย์
- รองรับทั้ง Python 2.7 และ Python 3.4+
- ใช้ Apache Software License 2.0
- ตัดคำภาษาไทย
- ถอดเสียงภาษาไทยเป็น Latin
- Postaggers ภาษาไทย
- WordNet ภาษาไทย
- อ่านตัวเลขเป็นข้อความภาษาไทย
- เรียงจำนวนคำของประโยค
- แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
- เช็คคำผิดในภาษาไทย
- และอื่น ๆ
สำหรับผู้ใช้งาน Windows ให้ทำการโหลดไฟล์ whl ของ pyicu มาติดตั้งก่อน จาก http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyicu แล้วใช้คำสั่ง
pip install pythainlp
สำหรับ Mac อ่านได้ที่ https://github.com/pythainlp/pythainlp
สำหรับผู้ใช้งาน OS อื่น ๆ ใช้คำสั่ง
pip install pythainlp
การใช้งาน
เนื่องจากเอกสารของ PyThaiNLP กำลังอยู่ในช่วงกำลังปรับปรุง สำหรับผู้ใช้งาน Python 2.7 ให้ใส่
u'สตริง'
ทุกครั้งการตัดคำไทย
# -*- coding: utf-8 -*-อ่านเอกสารได้ที https://sites.google.com/view/pythainlp
from pythainlp.tokenize import word_tokenize
a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' # u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' ใน Python 2.7
b = word_tokenize(a)
print(b) # ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'เป็น', 'คนไทย']
เข้าไปช่วยกันพัฒนาได้ที่ https://github.com/pythainlp/pythainlp
pip install pythainlp <<< ลงไม่ได้
ตอบลบไม่ทราบว่าติดปัญหาอะไรครับ
ลบตอนนนี้แก้ได้แล้วครับ ติดตุงที่ Microsoft Visual C++ 14.0 Build Tools กับ python 3
ลบMicrosoft Visual C++ 9.0 Build Tools กับ python 2.7