18 ตุลาคม 2558

Published ตุลาคม 18, 2558 by with 0 comment

การประมวลภาษาธรรมชาติด้วยภาษาไพทอน

การประมวลภาษาธรรมชาติ (Natural Language Processing) เป็นส่วนหนึ่งของปัญญาประดิษฐ์และภาษาศาสตร์ เพื่อให้คอมพิวเตอร์สามารถตีความและเข้าใจภาษามนุษย์ได้ เพราะเหตุนี้ การประมวลภาษาธรรมชาติจึงมีความสำคัญ

ในภาษาไพทอนมีเครื่องมือประมวลภาษาธรรมชาติ คือ โมดูล nltk (Natural Language Toolkit)
เป็นโมดูลในภาษาไพทอนที่ช่วยในการประมวลภาษาธรรมชาติและโมดูลนี้เป็นที่นิยมกันในโลกนักพัฒนาภาษาไพทอน โดยใช้ Apache License, Version 2.0 และรองรับทั้ง Python 2 และ Python 3

ติดตั้งได้ด้วยคำสั่ง pip:
pip install nltk

ถัดมาให้ทำการโหลด NLTK Data มาติดตั้งโดยใช้โค้ดไพทอน
import nltk
nltk.download()
จะปรากฎหน้าต่าง NLTK Downloader ขึ้นมา
แบบหน้าต่าง NLTK Downloader แบบ GUI
หน้าต่าง NLTK Downloader แบบ GUI
แบบคอมมานด์ไลน์
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?

ทำการโหลดข้อมูลตามที่ต้องการ

ทดลองสร้าง context-free grammar (CFG) และสร้างประโยคด้วย NLTK ในภาษาไพทอน


โครงสร้างประโยคพื้นฐานของภาษาไทย มีอยู่ว่า
ประธาน (คำนาม) + คำกริยา + กรรม

เป็น
N + V + O

เขียนโค้ดไพทอนได้

ผลลัพธ์
(S (N คน) (V เล่น) (O เกม))

คน เดิน ข้าว
คน เดิน เกม
คน เดิน โต๊ะ
คน เล่น ข้าว
คน เล่น เกม
คน เล่น โต๊ะ
คน นั่ง ข้าว
คน นั่ง เกม
คน นั่ง โต๊ะ

อ่านเรื่อง context-free grammar (CFG) ได้ที่ http://www.nltk.org/book/ch08.html
อ่านเอกสารการใช้งานได้ที่ http://www.nltk.org/book/

ติดตตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)