27 เมษายน 2559

Published 4/27/2559 by with 0 comment

เก็บบทความข่าวภาษาอังกฤษด้วย Newspaper3k

สวัสดีผู้อ่านทุกท่านครับ บทความนี้ผมขอแนะนำโมดูลที่ช่วยในการเก็บบทความ - ข่าวภาษาอังกฤษจากเว็บเพจแบบไม่ต้องแยก HTML code เอง ด้วย Newspaper3k ในภาษา Python 3 กันครับ

โมดูล Newspaper3k เป็นโมดูลสำหรับใช้เก็บ/ดูดบทความ - ข่าวภาษาอังกฤษจากเว็บเพจ โดยโมดูลมีความสามารถแยกเนื้อหาของหน้าเพจออกจาก HTML code ได้ นอกจากนั้นยังสามารถแยกลิงค์รูปภาพออกจาก HTML code และแยกชื่อผู้เขียนจาก HTML code ได้อีกด้วย
เป็น Multi-threaded
แต่ตอนนี้รองรับเฉพาะภาษา English, Chinese, German, Arabic, ... ไม่มีภาษาไทย
รองรับเฉพาะ Python 3 เท่านั้น

สามารถติดตั้งได้โดยใช้คำสั่ง pip:
pip3 install newspaper3k

เรามาเขียนโปรแกรมเก็บข่าวกันครับ

เช่นผมต้องการเนื้อหาข่าว Like a boss: Falcon soars into space and lands in the ocean จาก ArsTechnica ที่ลิงค์ http://arstechnica.com/science/2016/04/like-a-boss-falcon-soars-into-space-and-lands-in-the-ocean/ มาบันทึกลงในไฟล์ news1.txt
มาลงมือเขียนโค้ดกันเลยครับ

[python]
from newspaper import Article

file = open('news.txt','w+')

url = 'http://arstechnica.com/science/2016/04/like-a-boss-falcon-soars-into-space-and-lands-in-the-ocean/'
article = Article(url)
article.download()
article.parse()
file.write(article.text)
file.close()
del article
with open('news.txt', 'r') as f:
read_data = f.read()
print(read_data)
f.close()
[/python]

ผลลัพธ์
A nonchalant Elon Musk met with reporters on Friday evening. “It didn't put a ho
le in the ship or fall over, so we're pretty excited,” the SpaceX founder said a ...

... would come next. “We're a little bit like the dog who caught the bus,” Musk said
, smiling. “What do we do now?”

ศึกษาคำสั่งเพิ่มเติมได้ที่ https://github.com/codelucas/newspaper
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ

0 ความคิดเห็น:

แสดงความคิดเห็น

แสดงความคิดเห็นได้ครับ :)