7 พฤศจิกายน 2567

Published พฤศจิกายน 07, 2567 by with 0 comment

3 Tips เล็ก ๆ น้อย ๆ สำหรับ NLP ภาษาไทยกับข้อมูลขนาดใหญ่

 3 Tips เล็ก ๆ น้อย ๆ สำหรับ NLP ภาษาไทยกับข้อมูลขนาดใหญ่ บน python ครับ

  1. ตัดคำภาษาไทย: หากไม่เน้นความถูกต้อง ไม่สนใจเรื่องปรับแต่งพจนานุกรมตัดคำ เน้นความเร็วแต่ไม่ถึงขั้นใช้ rule base หรือ subword ให้ใช้ IBM ICU จะตัดคำได้เร็วที่สุด แต่หากจะอยากตัดคำด้วย newmm ใช้ nlpo3 แทนจะตัดคำได้เร็วกว่า pythainlp
  2. หากคุณใช้ if "value" in list() โดยมีข้อมูลใน list มาก ให้เปลี่ยนเป็น if "value" in set() แทน
  3. ใช้ ujson แทน json ของ python จะประมวลผล json ได้ไวกว่าของ python

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)