WordNet ภาษาไทยกับ Python

บทความนี้จะพาผู้อ่านไปใช้ WordNet ภาษาไทยกับ Python กันครับ

WordNet คืออะไร

WordNet เป็นฐานข้อมูลคำศัพท์ (lexical database) ของภาษาอังกฤษ กลุ่มคำภาษาอังกฤษที่เป็นเชตของคำพ้องความหมาย (synonyms) เรียกว่า synset
สร้างโดย The Cognitive Science Laboratory of Princeton University ภายใต้การนำของศาสตราจารย์ภาควิชาจิตวิทยา George A. Miller

ถูกนำไปใช้งานโดย นักภาษาศาสตร์ , นักจิตวิทยา , นักพัฒนาปัญญาประดิษฐ์ , นักพัฒนาการประมวลผลภาษาธรรมชาติ

ปัจจุบันนี้ WordNet ไม่ได้มีเฉพาะภาษาอังกฤษ ได้มีการนำหลักการ WordNet ไปประยุกต์ใช้กับภาษาต่าง ๆ ทั่วโลก


ในภาษาไทยมีการทำ WordNet ภาษาไทยที่ http://www.asianwordnet.org/ ในชื่อ Thai WordNet และได้มีคนส่งออกฐานข้อมูลข้อมูลในรูปแบบ SQLite โดยคุณ Vee Satayamas (เจ้าของบล็อก https://veer66.wordpress.com/)

บทความนี้ผมจะพาผู้อ่านไปใช้ WordNet ภาษาไทยกับภาษา Python กันครับ

ก่อนใช้งานให้ทำการอ่าน LICENSE ของ Thai WordNet  ที่ https://sourceforge.net/p/thwnsqlite/code/ci/default/tree/LICENSE_THA_WN

แล้วให้ทำการโหลดไฟล์ thwnsqlite-201405121006.tar.bz2 จาก https://sourceforge.net/projects/thwnsqlite/files/thwnsqlite-201405121006.tar.bz2/download

แล้วทำการแตกไฟล์ออกมา ได้ไฟล์ tha-wn.db เป็นไฟล์ฐานข้อมูล Thai WordNet

ภายในฐานข้อมูล Thai WordNet จะประกอบด้วยตาราง word_synset ภายในตาราง word_synset ประกอบไปด้วยข้อมูล synsetid,li

แล้วเขียนโค้ดตามนี้


ผลลัพธ์

Synset(synset='02503365-v', li='ผลักดันกลับ')
Word(synsetid='02503365-v', li='ผลักดันกลับ')


แหล่งอ้างอิง

One thought on “WordNet ภาษาไทยกับ Python

  1. Pingback: WordNet ภาษาไทยกับ NLTK - Python 3

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องที่ต้องการถูกทำเครื่องหมาย *