การประมวลผลภาษาธรรมชาติภาษาจีนด้วย Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้ผมจะขอแนะนำโมดูลการประมวลผลภาษาธรรมชาติ NLP ภาษาจีนใน Python กันครับ

ภาษาจีนกลางเป็นภาษาที่มีคนพูดมากทีสุดในโลก จากการจัดลำดับของ alsintl.com (https://www.alsintl.com/blog/most-common-languages/) ในภาษา Python งานประมวลผลภาษาธรรมชาติภาษาจีน ผมขอแนะนำโมดูล jieba

โมดูล jieba เป็นโมดูล word segmentation ภาษาจีนใน Python

สนับสนุนภาษาจีนแบบดั้งเดิม
ใช้ MIT License
รองรับทั้ง Python 2 และ Python 3

สามารถติดตั้งได้ด้วยคำสั่ง pip:

pip install jieba

การใช้งาน

ผมต้องการตัดคำภาษาจีนประโยคนี้

我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。

แปลว่า

ฉันรักเธอ ไม่ใช่ว่าเธอเป็นคนอย่างไร แต่เพราะว่าฉันชอบความรู้สึกในขณะที่ได้อยู่กับเธอ

จาก http://pasajeen.com/ความรักในภาษาจีน-ฉันรักเธอ-我爱你/
ให้ทำการเขียนโค้ดตัดคำดังนี้


import jieba #ดึงโมดูลเข้ามาก่อน

text = "我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。"

seg_list = jieba.cut_for_search(text) #ตัดคำภาษาจีนจากประโยค

print(", ".join(seg_list)) #แสดงผลการตัดคำออกมา โดยใช้ , แยกคำกับคำ

ผลลัพธ์

我爱你, ，, 不是, 因为, 你, 是, 一个, 怎样, 的, 人, ，, 而是, 因为, 我, 喜欢, 与, 你, 在, 一起, 时, 的, 感觉, 。

อ่านเอกสารการใช้งานได้ที่ https://github.com/fxsjy/jieba
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

การประมวลผลภาษาธรรมชาติกับ Python, OK

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)

Python 3

สอนเขียนโปรแกรมด้วยภาษา Python 3

27 มีนาคม 2559

การประมวลผลภาษาธรรมชาติภาษาจีนด้วย Python

การใช้งาน

0 ความคิดเห็น:

แสดงความคิดเห็น

Search

Popular Posts

Categories

Blog Archive

License

ค้นหาบล็อกนี้

หนังสือ Python ภาษาไทย ออนไลน์