遜砲賴的爆肝筆記: [Java] Jsoup

2016年10月13日星期四

[Java] Jsoup - HTML 爬蟲工具

Jsoup 是我最近發現用來Parse Html很好用的工具

有點類似JQuery selector

用起來非常直覺好用

而且速度還蠻快的

推薦給大家試試看

Jsoup官網 https://jsoup.org/

身為慘戶，每天都有收看股票漲跌排行的習慣

即使已經使用excel幫助過濾了

但是資料過濾跟查詢，通常都要花一個小時以上

雖然一開始就知道可以寫程式來處理前置作業

但為了培養股票的sense，一直都沒放棄手動查詢

而現在，是時候可以寫爬蟲程式了

使用起來有點類似JQuery selector

用起來非常直覺好用

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

上面範例是從官網來的

要找出https://en.wikipedia.org/wiki/Main_Page中id為mp-itn中粗體的連結

直接用newsHeadlines.html()可以印出結果

跟jquery一模一樣嘛！！

JQuery Selector方式請參考https://api.jquery.com/category/selectors/

這次我使用Jsoup來抓網頁內容

本來想直接parse Yahoo漲跌排行這頁

https://tw.stock.yahoo.com/d/i/rank.php?t=up&e=tse&n=100

但是因為他是https所以失敗了

好像還有其他設定要做，這個下次再說

所以我找了一些股票漲跌排行的網站

發現這個富邦還蠻easy的

http://fubon-ebrokerdj.fbs.com.tw/Z/ZG/ZG_A.djhtm

除了parse html外，還可以插入element，像這樣

doc.select("#messageTab1").append("<span>test</span>");

還蠻好用的

參考資料:
https://jsoup.org/