ข้อมูล wikipedia dump เป็นข้อมูลทั้งหมดที่ส่งออกมาจากวิกิพีเดีย ซึ่งสำหรับวิกิพีเดียภาษาไทยสามารถโหลดได้จาก https://dumps.wikimedia.org/thwiki/
หากคุณต้องการข้อมูลไปสร้าง Word2Vec หรืออื่น ๆ ก่อนอื่น คุณต้องส่งออกไฟล์ข้อมูล wikipedia dump ออกมาให้ได้ก่อน สามารถทำได้โดยใช้ WikiExtractor
ตัวอย่าง
ผมโหลดไฟล์ thwiki-latest-pages-articles.xml.bz2 มา แล้วทำโหลด WikiExtractor มาจาก https://raw.githubusercontent.com/attardi/wikiextractor/master/WikiExtractor.py มาเก็บไว้ในโฟลเดอร์เดียวกันกับไฟล์ thwiki-latest-pages-articles.xml.bz2 แล้วสั่ง
python WikiExtractor.py thwiki-latest-pages-articles.xml.bz2แล้วจะได้โฟลเดอร์ text ซึ่งเก็บข้อมูล text ไฟล์ที่ส่งออกมาจาก wikipedia dump
อ่านเอกสาร WikiExtractor เพิ่มเติมได้ที่ https://github.com/attardi/wikiextractor
ขอคำแนะนำการตัดคำจาก text files ที่แตกเรียบร้อยแล้วจากขั้นตอนข้างบน เพื่อแปลงเป็นเวคเตอร์
ตอบลบ