3 Tips เล็ก ๆ น้อย ๆ สำหรับ NLP ภาษาไทยกับข้อมูลขนาดใหญ่ บน python ครับ
- ตัดคำภาษาไทย: หากไม่เน้นความถูกต้อง ไม่สนใจเรื่องปรับแต่งพจนานุกรมตัดคำ เน้นความเร็วแต่ไม่ถึงขั้นใช้ rule base หรือ subword ให้ใช้ IBM ICU จะตัดคำได้เร็วที่สุด แต่หากจะอยากตัดคำด้วย newmm ใช้ nlpo3 แทนจะตัดคำได้เร็วกว่า pythainlp
- หากคุณใช้ if "value" in list() โดยมีข้อมูลใน list มาก ให้เปลี่ยนเป็น if "value" in set() แทน
- ใช้ ujson แทน json ของ python จะประมวลผล json ได้ไวกว่าของ python