27 มีนาคม 2559

Published มีนาคม 27, 2559 by with 0 comment

ตัดคำภาษาญี่ปุ่นด้วย Python

ตัดคำภาษาญี่ปุ่นด้วย Python


บทความนี้ผมจะพาผู้อ่านไปตัดคำภาษาญี่ปุ่นด้วย Python กันครับ



ผมขอแนะนำโมดูล TinySegmenter เป็นโมดูล tokenizer specified ของภาษาญี่ปุ่นในภาษา Python

  • ใช้ new BSD licence

  • รองรับทั้ง Python 2 และ Python 3


สามารถติดตั้งได้โดยใช้คำสั่ง pip :
pip install tinysegmenter3

การใช้งาน
หากต้องการตัดคำในประโยคภาษาญี่ปุ่นด้วย Python เช่น
あなたを愛してます。

แปลว่า
ฉันรักคุณ

สามารถตัดคำได้ง่าย ๆ ดังนี้

[python]
import tinysegmenter
text = "あなたを愛してます。"
tokenized_statement = tinysegmenter.tokenize(text)
print(tokenized_statement)
[/python]

ผลลัพธ์

[python]['あなた', 'を', '愛し', 'て', 'ます', '。'][/python]

อ่านรายละเอียดโมดูลได้ที่ https://github.com/SamuraiT/tinysegmenter
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)