ภาษาจีนกลางเป็นภาษาที่มีคนพูดมากทีสุดในโลก จากการจัดลำดับของ alsintl.com (https://www.alsintl.com/blog/most-common-languages/) ในภาษา Python งานประมวลผลภาษาธรรมชาติภาษาจีน ผมขอแนะนำโมดูล jieba
โมดูล jieba เป็นโมดูล word segmentation ภาษาจีนใน Python
- สนับสนุนภาษาจีนแบบดั้งเดิม
- ใช้ MIT License
- รองรับทั้ง Python 2 และ Python 3
pip install jieba
การใช้งาน
ผมต้องการตัดคำภาษาจีนประโยคนี้
我爱你,不是因为你是一个怎样的人,而是因为我喜欢与你在一起时的感觉。
แปลว่า
ฉันรักเธอ ไม่ใช่ว่าเธอเป็นคนอย่างไร แต่เพราะว่าฉันชอบความรู้สึกในขณะที่ได้อยู่กับเธอ
จาก http://pasajeen.com/ความรักในภาษาจีน-ฉันรักเธอ-我爱你/
ให้ทำการเขียนโค้ดตัดคำดังนี้
import jieba #ดึงโมดูลเข้ามาก่อน
text = "我爱你,不是因为你是一个怎样的人,而是因为我喜欢与你在一起时的感觉。"
seg_list = jieba.cut_for_search(text) #ตัดคำภาษาจีนจากประโยค
print(", ".join(seg_list)) #แสดงผลการตัดคำออกมา โดยใช้ , แยกคำกับคำ
ผลลัพธ์
我爱你, ,, 不是, 因为, 你, 是, 一个, 怎样, 的, 人, ,, 而是, 因为, 我, 喜欢, 与, 你, 在, 一起, 时, 的, 感觉, 。
อ่านเอกสารการใช้งานได้ที่ https://github.com/fxsjy/jieba
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ
0 ความคิดเห็น:
แสดงความคิดเห็น
แสดงความคิดเห็นได้ครับ :)