2 พฤษภาคม 2560

Published 5/02/2560 by with 0 comment

PyThaiNLP - โมดูล NLP ภาษาไทยใน Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้จะพาผู้อ่านไปใช้งาน PyThaiNLP กันครับ


โมดูล PyThaiNLP เป็นโมดูลที่ถูกพัฒนาขึ้นเพื่องานวิจัยและพัฒนาการประมวลภาษาธรรมชาติภาษาไทยในภาษา Python

พัฒนาโดย นาย วรรณพงษ์  ภัททิยไพบูลย์

  • รองรับทั้ง Python 2.7 และ Python 3.4+
  • ใช้ Apache Software License 2.0
โดยปัจจุบันมีความสามารถดังนี้

  • ตัดคำภาษาไทย
  • ถอดเสียงภาษาไทยเป็น Latin
  • Postaggers ภาษาไทย
  • WordNet ภาษาไทย
  • อ่านตัวเลขเป็นข้อความภาษาไทย
  • เรียงจำนวนคำของประโยค
  • แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา
  • เช็คคำผิดในภาษาไทย
  • และอื่น ๆ
การติดตั้ง

สำหรับผู้ใช้งาน Windows ให้ทำการโหลดไฟล์ whl ของ pyicu มาติดตั้งก่อน จาก http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyicu แล้วใช้คำสั่ง pip install pythainlp

สำหรับ Mac อ่านได้ที่ https://github.com/wannaphongcom/pythainlp

สำหรับผู้ใช้งาน OS อื่น ๆ ใช้คำสั่ง pip install pythainlp

การใช้งาน

เนื่องจากเอกสารของ PyThaiNLP กำลังอยู่ในช่วงกำลังปรับปรุง สำหรับผู้ใช้งาน Python 2.7 ให้ใส่ u'สตริง' ทุกครั้ง
การตัดคำไทย
# -*- coding: utf-8 -*-
from pythainlp.tokenize import word_tokenize
a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' # u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' ใน Python 2.7
b = word_tokenize(a)
print(b) # ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'เป็น', 'คนไทย']
อ่านเอกสารได้ที https://sites.google.com/view/pythainlp
เข้าไปช่วยกันพัฒนาได้ที่ https://github.com/wannaphongcom/pythainlp

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)