7 พฤศจิกายน 2567

Published พฤศจิกายน 07, 2567 by with 0 comment

3 Tips เล็ก ๆ น้อย ๆ สำหรับ NLP ภาษาไทยกับข้อมูลขนาดใหญ่

 3 Tips เล็ก ๆ น้อย ๆ สำหรับ NLP ภาษาไทยกับข้อมูลขนาดใหญ่ บน python ครับ

  1. ตัดคำภาษาไทย: หากไม่เน้นความถูกต้อง ไม่สนใจเรื่องปรับแต่งพจนานุกรมตัดคำ เน้นความเร็วแต่ไม่ถึงขั้นใช้ rule base หรือ subword ให้ใช้ IBM ICU จะตัดคำได้เร็วที่สุด แต่หากจะอยากตัดคำด้วย newmm ใช้ nlpo3 แทนจะตัดคำได้เร็วกว่า pythainlp
  2. หากคุณใช้ if "value" in list() โดยมีข้อมูลใน list มาก ให้เปลี่ยนเป็น if "value" in set() แทน
  3. ใช้ ujson แทน json ของ python จะประมวลผล json ได้ไวกว่าของ python
Read More

9 ตุลาคม 2567

Published ตุลาคม 09, 2567 by with 0 comment

ทำไมถึงควรใช้ Python ของระบบปฏิบัติการมากกว่า Anaconda ในกรณีนี้!

สวัสดีผู้อ่านทุกท่าน หลาย ๆ ท่านที่ทำงานเกี่ยวกับวิทยาศาสตร์ข้อมูลหรือปัญญาประดิษฐ์อาจจะใช้ Anaconda หรือ miniconda สำหรับติดตั้งเครื่องมือในการพัฒนาโมเดล โค้ดต่าง ๆ บนระบบปฏิบัติการ  (Linux, Windows) ซึ่ง conda ช่วยอำนวยความสะดวกมากมายในการใช้งาน แต่ในความสะดวกสบายก็มีข้อเสียเช่นเดียวกัน และอาจไม่มีทางแก้ไขได้นอกจากใช้ Python ของระบบปฏิบัติการเท่านั้น

Read More

8 ตุลาคม 2567

Published ตุลาคม 08, 2567 by with 0 comment

สร้างฐานข้อมูล vector search ด้วย sqlite-vec ในภาษา Python

ทุกวันนี้การสร้างระบบค้นคืนข้อมูล หรือ RAG กำลังเป็นที่นิยมในหมู่นักพัฒนาปัญญาประดิษฐ์ทั่วโลกที่ใช้งาน Gen AI หนึ่งในสิ่งที่สำคัญ คือ ฐานข้อมูลเวกเตอร์ สำหรับทำการจัดเก็บและสืบค้นเวกเตอร์ ให้มีความสะดวกรวดเร็ว หนึ่งในนั้นคือ sqlite-vec

Read More

24 มกราคม 2567