WordNet คืออะไร
WordNet เป็นฐานข้อมูลคำศัพท์ (lexical database) ของภาษาอังกฤษ กลุ่มคำภาษาอังกฤษที่เป็นเชตของคำพ้องความหมาย (synonyms) เรียกว่า synset
สร้างโดย The Cognitive Science Laboratory of Princeton University ภายใต้การนำของศาสตราจารย์ภาควิชาจิตวิทยา George A. Miller
ถูกนำไปใช้งานโดย นักภาษาศาสตร์ , นักจิตวิทยา , นักพัฒนาปัญญาประดิษฐ์ , นักพัฒนาการประมวลผลภาษาธรรมชาติ
ปัจจุบันนี้ WordNet ไม่ได้มีเฉพาะภาษาอังกฤษ ได้มีการนำหลักการ WordNet ไปประยุกต์ใช้กับภาษาต่าง ๆ ทั่วโลก
ในภาษาไทยมีการทำ WordNet ภาษาไทยที่ http://www.asianwordnet.org/ ในชื่อ Thai WordNet และได้มีคนส่งออกฐานข้อมูลข้อมูลในรูปแบบ SQLite โดยคุณ Vee Satayamas (เจ้าของบล็อก https://veer66.wordpress.com/)
บทความนี้ผมจะพาผู้อ่านไปใช้ WordNet ภาษาไทยกับภาษา Python กันครับ
ก่อนใช้งานให้ทำการอ่าน LICENSE ของ Thai WordNet ที่ https://sourceforge.net/p/thwnsqlite/code/ci/default/tree/LICENSE_THA_WN
แล้วให้ทำการโหลดไฟล์ thwnsqlite-201405121006.tar.bz2 จาก https://sourceforge.net/projects/thwnsqlite/files/thwnsqlite-201405121006.tar.bz2/download
แล้วทำการแตกไฟล์ออกมา ได้ไฟล์ tha-wn.db เป็นไฟล์ฐานข้อมูล Thai WordNet
ภายในฐานข้อมูล Thai WordNet จะประกอบด้วยตาราง word_synset ภายในตาราง word_synset ประกอบไปด้วยข้อมูล synsetid,li
แล้วเขียนโค้ดตามนี้
ผลลัพธ์
Synset(synset='02503365-v', li='ผลักดันกลับ')
Word(synsetid='02503365-v', li='ผลักดันกลับ')
แหล่งอ้างอิง
0 ความคิดเห็น:
แสดงความคิดเห็น
แสดงความคิดเห็นได้ครับ :)