4 กุมภาพันธ์ 2560

Published กุมภาพันธ์ 04, 2560 by with 0 comment

WordNet ภาษาไทยกับ Python

บทความนี้จะพาผู้อ่านไปใช้ WordNet ภาษาไทยกับ Python กันครับ

WordNet คืออะไร


WordNet เป็นฐานข้อมูลคำศัพท์ (lexical database) ของภาษาอังกฤษ กลุ่มคำภาษาอังกฤษที่เป็นเชตของคำพ้องความหมาย (synonyms) เรียกว่า synset
สร้างโดย The Cognitive Science Laboratory of Princeton University ภายใต้การนำของศาสตราจารย์ภาควิชาจิตวิทยา George A. Miller

ถูกนำไปใช้งานโดย นักภาษาศาสตร์ , นักจิตวิทยา , นักพัฒนาปัญญาประดิษฐ์ , นักพัฒนาการประมวลผลภาษาธรรมชาติ




ปัจจุบันนี้ WordNet ไม่ได้มีเฉพาะภาษาอังกฤษ ได้มีการนำหลักการ WordNet ไปประยุกต์ใช้กับภาษาต่าง ๆ ทั่วโลก




ในภาษาไทยมีการทำ WordNet ภาษาไทยที่ http://www.asianwordnet.org/ ในชื่อ Thai WordNet และได้มีคนส่งออกฐานข้อมูลข้อมูลในรูปแบบ SQLite โดยคุณ Vee Satayamas (เจ้าของบล็อก https://veer66.wordpress.com/)

บทความนี้ผมจะพาผู้อ่านไปใช้ WordNet ภาษาไทยกับภาษา Python กันครับ

ก่อนใช้งานให้ทำการอ่าน LICENSE ของ Thai WordNet  ที่ https://sourceforge.net/p/thwnsqlite/code/ci/default/tree/LICENSE_THA_WN

แล้วให้ทำการโหลดไฟล์ thwnsqlite-201405121006.tar.bz2 จาก https://sourceforge.net/projects/thwnsqlite/files/thwnsqlite-201405121006.tar.bz2/download

แล้วทำการแตกไฟล์ออกมา ได้ไฟล์ tha-wn.db เป็นไฟล์ฐานข้อมูล Thai WordNet

ภายในฐานข้อมูล Thai WordNet จะประกอบด้วยตาราง word_synset ภายในตาราง word_synset ประกอบไปด้วยข้อมูล synsetid,li



แล้วเขียนโค้ดตามนี้


ผลลัพธ์
Synset(synset='02503365-v', li='ผลักดันกลับ')
Word(synsetid='02503365-v', li='ผลักดันกลับ')


แหล่งอ้างอิง


0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)