2 พฤษภาคม 2560

Published 5/02/2560 by with 0 comment

PyThaiNLP - โมดูล NLP ภาษาไทยใน Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้จะพาผู้อ่านไปใช้งาน PyThaiNLP กันครับ

โมดูล PyThaiNLP เป็นโมดูลที่ถูกพัฒนาขึ้นเพื่องานวิจัยและพัฒนาการประมวลภาษาธรรมชาติภาษาไทยในภาษา Python

พัฒนาโดย นาย วรรณพงษ์  ภัททิยไพบูลย์

  • รองรับทั้ง Python 2.7 และ Python 3.4+

  • ใช้ Apache Software License 2.0


โดยปัจจุบันมีความสามารถดังนี้

  • ตัดคำภาษาไทย

  • ถอดเสียงภาษาไทยเป็น Latin

  • Postaggers ภาษาไทย

  • WordNet ภาษาไทย

  • อ่านตัวเลขเป็นข้อความภาษาไทย

  • เรียงจำนวนคำของประโยค

  • แก้ไขปัญหาการพิมพ์ลืมเปลี่ยนภาษา

  • เช็คคำผิดในภาษาไทย

  • และอื่น ๆ


การติดตั้ง

สำหรับผู้ใช้งาน Windows ให้ทำการโหลดไฟล์ whl ของ pyicu มาติดตั้งก่อน จาก http://www.lfd.uci.edu/~gohlke/pythonlibs/#pyicu แล้วใช้คำสั่ง pip install pythainlp

สำหรับ Mac อ่านได้ที่ https://github.com/wannaphongcom/pythainlp

สำหรับผู้ใช้งาน OS อื่น ๆ ใช้คำสั่ง pip install pythainlp

การใช้งาน

เนื่องจากเอกสารของ PyThaiNLP กำลังอยู่ในช่วงกำลังปรับปรุง สำหรับผู้ใช้งาน Python 2.7 ให้ใส่ u'สตริง' ทุกครั้ง
การตัดคำไทย

[python]
# -*- coding: utf-8 -*-
from pythainlp.tokenize import word_tokenize
a = 'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' # u'ฉันรักภาษาไทยเพราะฉันเป็นคนไทย' ใน Python 2.7
b = word_tokenize(a)
print(b) # ['ฉัน', 'รัก', 'ภาษาไทย', 'เพราะ', 'ฉัน', 'เป็น', 'คนไทย']
[/python]

อ่านเอกสารได้ที https://sites.google.com/view/pythainlp
เข้าไปช่วยกันพัฒนาได้ที่ https://github.com/wannaphongcom/pythainlp

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)