18 มิถุนายน 2561

Published มิถุนายน 18, 2561 by with 1 comment

ส่งออกข้อมูล wikipedia dump ออกมาเป็น text ง่าย ๆ

หากคุณกำลังทำการประมวลผลภาษาธรรมชาติหรือต้องการส่งออกข้อมูลไฟล์ที่ได้จาก  wikipedia dump  ออกไปเป็น text สามารถทำได้โดยใช้เครื่องมือที่ชื่อว่า WikiExtractor

ข้อมูล wikipedia dump เป็นข้อมูลทั้งหมดที่ส่งออกมาจากวิกิพีเดีย ซึ่งสำหรับวิกิพีเดียภาษาไทยสามารถโหลดได้จาก https://dumps.wikimedia.org/thwiki/
หากคุณต้องการข้อมูลไปสร้าง Word2Vec หรืออื่น ๆ ก่อนอื่น คุณต้องส่งออกไฟล์ข้อมูล wikipedia dump ออกมาให้ได้ก่อน สามารถทำได้โดยใช้ WikiExtractor

ตัวอย่าง
ผมโหลดไฟล์ thwiki-latest-pages-articles.xml.bz2 มา แล้วทำโหลด WikiExtractor มาจาก https://raw.githubusercontent.com/attardi/wikiextractor/master/WikiExtractor.py มาเก็บไว้ในโฟลเดอร์เดียวกันกับไฟล์ thwiki-latest-pages-articles.xml.bz2 แล้วสั่ง
python WikiExtractor.py thwiki-latest-pages-articles.xml.bz2
แล้วจะได้โฟลเดอร์ text ซึ่งเก็บข้อมูล text ไฟล์ที่ส่งออกมาจาก wikipedia dump

อ่านเอกสาร WikiExtractor เพิ่มเติมได้ที่ https://github.com/attardi/wikiextractor

1 ความคิดเห็น:

  1. ขอคำแนะนำการตัดคำจาก text files ที่แตกเรียบร้อยแล้วจากขั้นตอนข้างบน เพื่อแปลงเป็นเวคเตอร์

    ตอบลบ

แสดงความคิดเห็นได้ครับ :)