ตัดคำภาษาญี่ปุ่นด้วย Python
บทความนี้ผมจะพาผู้อ่านไปตัดคำภาษาญี่ปุ่นด้วย Python กันครับ
ผมขอแนะนำโมดูล TinySegmenter เป็นโมดูล tokenizer specified ของภาษาญี่ปุ่นในภาษา Python
- ใช้ new BSD licence
- รองรับทั้ง Python 2 และ Python 3
สามารถติดตั้งได้โดยใช้คำสั่ง pip :
pip install tinysegmenter3
การใช้งาน
หากต้องการตัดคำในประโยคภาษาญี่ปุ่นด้วย Python เช่น
あなたを愛してます。
แปลว่า
ฉันรักคุณ
สามารถตัดคำได้ง่าย ๆ ดังนี้
[python]
import tinysegmenter
text = "あなたを愛してます。"
tokenized_statement = tinysegmenter.tokenize(text)
print(tokenized_statement)
[/python]
ผลลัพธ์
[python]['あなた', 'を', '愛し', 'て', 'ます', '。'][/python]
อ่านรายละเอียดโมดูลได้ที่ https://github.com/SamuraiT/tinysegmenter
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ
0 ความคิดเห็น:
แสดงความคิดเห็น
แสดงความคิดเห็นได้ครับ :)