27 มีนาคม 2559

Published มีนาคม 27, 2559 by with 0 comment

การประมวลผลภาษาธรรมชาติภาษาจีนด้วย Python

สวัสดีผู้อ่านทุกท่านครับ บทความนี้ผมจะขอแนะนำโมดูลการประมวลผลภาษาธรรมชาติ NLP ภาษาจีนใน Python กันครับ


ภาษาจีนกลางเป็นภาษาที่มีคนพูดมากทีสุดในโลก จากการจัดลำดับของ alsintl.com (https://www.alsintl.com/blog/most-common-languages/) ในภาษา Python งานประมวลผลภาษาธรรมชาติภาษาจีน ผมขอแนะนำโมดูล jieba

โมดูล jieba เป็นโมดูล word segmentation ภาษาจีนใน Python

  • สนับสนุนภาษาจีนแบบดั้งเดิม
  • ใช้ MIT License
  • รองรับทั้ง Python 2 และ Python 3
สามารถติดตั้งได้ด้วยคำสั่ง pip:
pip install jieba

การใช้งาน


ผมต้องการตัดคำภาษาจีนประโยคนี้
我爱你,不是因为你是一个怎样的人,而是因为我喜欢与你在一起时的感觉。

แปลว่า
ฉันรักเธอ ไม่ใช่ว่าเธอเป็นคนอย่างไร แต่เพราะว่าฉันชอบความรู้สึกในขณะที่ได้อยู่กับเธอ

จาก http://pasajeen.com/ความรักในภาษาจีน-ฉันรักเธอ-我爱你/
ให้ทำการเขียนโค้ดตัดคำดังนี้

import jieba #ดึงโมดูลเข้ามาก่อน
text = "我爱你,不是因为你是一个怎样的人,而是因为我喜欢与你在一起时的感觉。"
seg_list = jieba.cut_for_search(text) #ตัดคำภาษาจีนจากประโยค
print(", ".join(seg_list)) #แสดงผลการตัดคำออกมา โดยใช้ , แยกคำกับคำ

ผลลัพธ์
我爱你, ,, 不是, 因为, 你, 是, 一个, 怎样, 的, 人, ,, 而是, 因为, 我, 喜欢, 与, 你, 在, 一起, 时, 的, 感觉, 。

อ่านเอกสารการใช้งานได้ที่ https://github.com/fxsjy/jieba
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)