โมดูล Newspaper3k เป็นโมดูลสำหรับใช้เก็บ/ดูดบทความ - ข่าวภาษาอังกฤษจากเว็บเพจ โดยโมดูลมีความสามารถแยกเนื้อหาของหน้าเพจออกจาก HTML code ได้ นอกจากนั้นยังสามารถแยกลิงค์รูปภาพออกจาก HTML code และแยกชื่อผู้เขียนจาก HTML code ได้อีกด้วย
เป็น Multi-threaded
แต่ตอนนี้รองรับเฉพาะภาษา English, Chinese, German, Arabic, ... ไม่มีภาษาไทย
รองรับเฉพาะ Python 3 เท่านั้น
สามารถติดตั้งได้โดยใช้คำสั่ง pip:
pip3 install newspaper3k
เรามาเขียนโปรแกรมเก็บข่าวกันครับ
เช่นผมต้องการเนื้อหาข่าว Like a boss: Falcon soars into space and lands in the ocean จาก ArsTechnica ที่ลิงค์ http://arstechnica.com/science/2016/04/like-a-boss-falcon-soars-into-space-and-lands-in-the-ocean/ มาบันทึกลงในไฟล์ news1.txt
มาลงมือเขียนโค้ดกันเลยครับ
from newspaper import Article
file = open('news.txt','w+')
url = 'http://arstechnica.com/science/2016/04/like-a-boss-falcon-soars-into-space-and-lands-in-the-ocean/'
article = Article(url)
article.download()
article.parse()
file.write(article.text)
file.close()
del article
with open('news.txt', 'r') as f:
read_data = f.read()
print(read_data)
ผลลัพธ์
A nonchalant Elon Musk met with reporters on Friday evening. “It didn't put a ho le in the ship or fall over, so we're pretty excited,” the SpaceX founder said a ... ... would come next. “We're a little bit like the dog who caught the bus,” Musk said , smiling. “What do we do now?”
ศึกษาคำสั่งเพิ่มเติมได้ที่ https://github.com/codelucas/newspaper
ติดตามบทความต่อไปนะครับ
ขอบคุณครับ
0 ความคิดเห็น:
แสดงความคิดเห็น
แสดงความคิดเห็นได้ครับ :)