12 มีนาคม 2561

Published 3/12/2561 by with 9 comments

หาค่าความคล้ายคลึงประโยคภาษาไทยโดยใช้ thai2vec ด้วย PyThaiNLP

สวัสดีผู้อ่านทุกท่านครับ บทความนี้ผมจะพาผู้อ่านไปหาค่าความคล้ายคลึงประโยคภาษาไทยโดยใช้ thai2vec ด้วย PyThaiNLP

ก่อนอื่นให้ทำการติดตั้ง PyThaiNLP ด้วยคำสั่ง pip install pythainlp
แล้วเขียนโค้ดตามนี้

การใช้งาน
ให้ใช้ฟังก์ชัน sentence_similarity(ประโยคที่1,ประโยคที่2)
ตัวอย่างเช่น
print(sentence_similarity("ผมเป็นนักศึกษาเรียนที่มหาวิทยาลัยขอนแก่น","ผมเป็นนักศึกษามหาวิทยาลัยขอนแก่น"))
ผลลัพธ์
[[ 0.79725734]]

มีความคล้ายคลึงกันถึง 79 %

ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

9 ความคิดเห็น:

  1. สวัสดีครับ
    ผมทำตามแล้ว เออเร่อ แบบนี้ครับ ต้องทำไงดีครับ


    File "C:/Users/SUN1/Documents/Python Scripts/untitled10.py", line 16
    return cosine_similarity(sentence_vectorizer(str(s1)),sentence_vectorizer(str(s2)))
    ^
    IndentationError: expected an indented block

    ตอบลบ
  2. ลองเว้นวรรคใหม่ดูครับ

    ตอบลบ
  3. ไม่ระบุชื่อ13 ธันวาคม 2561 10:25

    สวัสดีค่ะ
    ลองทำตามแล้ว error TypeError: don't know how to handle uri None ตรง model=thai2vec.get_model() ขอคำแนะนำหน่อยค่ะว่าควรแก้ไขยังไง

    ตอบลบ
    คำตอบ
    1. เป็นเหมือนกันเลยครับ ไม่ทราบว่าทำได้หรือยัง

      ลบ
    2. เป็นเหมือนกันเลยครับ

      ลบ
    3. ลองอัพเดต pythainlp ด้วยคำสั่ง pip install -U pythainlp ดูนะครับ

      ลบ
    4. เหมือนจะเป็นที่Gensimนะครับ
      Python36\lib\site-packages\gensim\utils.py:1212: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
      warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")

      ลบ
    5. ความคิดเห็นนี้ถูกผู้เขียนลบ

      ลบ

แสดงความคิดเห็นได้ครับ :)