[爬蟲]超簡單爬蟲

原本預計是要到過年才會開始進行的爬蟲
沒想到上次買的書有相關教學就提早開始偷跑啦



※爬蟲會用到一些些網頁設計觀念,如果完全沒有相關背景的人
在看本篇文章遇到困難歡迎留言提問,我會盡量回答

這邊使用的是抓取靜態網站的功能,就是一開始資訊都顯示出來
而不用和JavaScript做互動的網站
什麼叫做互動,比如說這個blog,一開始不會把全部的文章顯示在畫面上
而是要在右側卷軸達到一定位置才觸發,然後把更多內容給顯示出來

這次做的第一個練習是使用Yahoo提供的RSS功能來抓取資料
進入Yahoo的RSS頁面之後我們使用科技的RSS來作範例
點擊RSS icon  (就是長得橘色有個像Wifi符號的東西)
可以看到一份XML檔案,我們就是要操作這個檔案

我目前使用requests這支外部lib抓取資料
然後用BeautifulSoup來整理資料,所以要先把這兩隻檔案用pip安裝起來
爬蟲程式抓取回頁面原始碼之後使用BeautifulSoup整理成我們看得懂的資料類型

多說無益,直接到Github上下載程式來閱讀
程式只有21行,是不是很不可思議呢,才花了21行就可以完成這麼厲害的功能
幾乎把每一步驟都說明完了這個範例也我不多著墨
抓取的過程是使用class作為辨識

下一個練習是使用臺灣數一數二大的電玩資訊站 ─ 巴哈姆特
來進行爬蟲,抓取線上遊戲的人氣排行,看看目前哪一款遊戲最受玩家青睞
一樣程式碼放在Github

靜態網頁就大約是這樣了,比我想像的簡單很多啊
自信心有點高昂

留言