最新消息

[公告2014/05/30] 如有需要將部落格中,任何一篇文章的程式碼使用在商業用途,請與我聯繫。

[公告2015/04/26] Line版的 iInfo程式與投資應用 群組已上線想加入的朋友們,請先查看 "入群須知" 再與我聯繫 Line : aminwhite5168,加入請告知身分與回答 "入群須知" 的問題。

[公告2018/04/22] 台北 Python + Excel VBA 金融資訊爬蟲課程,課程如網頁內容 金融資訊爬蟲班:台北班 Python 金融資訊爬蟲、EXCEL VBA 金融資訊爬蟲

[公告2019/01/08] 請注意:我再次重申,部落格文章的程式碼,是要提供各位參考與學習,一旦網頁改版請自行修改,別要求東要求西要我主動修改,你們用我寫東西賺錢了、交差了,請問有分我一杯羹嗎?既然賺錢沒分我,請問有什麼理由要求我修改,如果沒能力改,就花錢來找我上課。

[公告2019/12/01] 若各位有 Excel VBA 案子開發需求,歡迎與我聯繫,可接案處理。

[公告2020/05/22] 頁面載入速度慢,起因為部分JS來源(alexgorbatchev.com)失效導致頁面載入變慢,目前已做調整,請多見諒。

2021年2月22日 星期一

Google Apps Script 入門到進階(22) - 使用 Cheerio 協助爬蟲解析網頁

1年前 Google 雲端爬蟲程式突然無法運作,加上寫書緣故就去處理,最近有空重新整理,發現原來 Google App Script 解析網頁的函數 Xml.parse 已無法再使用了,換成 XmlService.parse 又發現非常難用,需要刪除很多網頁元素,原因是 XmlService.parse 對於 XML 的規則要求格,但HTML結構鬆散,所以無法直接適用,後來捨棄 XmlService.parse。
在網路尋找中無意間發現有外部套件 Cheerio 可以用來解析HTML,經過測試確實可以在GAS環境上使用也非常方便,之後也將全面採行,以下就稍微說明相關作法。
GAS版的 Cheerio 是外國人將 Cheerio 封裝而成的函式庫,需要透過Script ID加入GAS函式庫中。

Script ID:1ReeQ6WO8kKNxoaA_O0XEQ589cIrRvEBA9qcWpNqdOP17i47u6N9M5Xh0

以下就手把手帶各位操作。
步驟1:新增 Google 試算表。

步驟2:點擊「指令碼編輯器」,開啟「App Script」編輯環境。

步驟3:點擊「資料庫」,輸入Script ID,新增「函式庫」。

步驟4:輸入程式碼,抓取「Yahoo主力進出表」。
function getStockMajor()
{
  var st = SpreadsheetApp.getActiveSpreadsheet();
  var sheet = st.getSheets()[0].clear(); 

  //連線Yahoo主力進出表
  var URL = "https://tw.stock.yahoo.com/d/s/major_2330.html";
  var source = UrlFetchApp.fetch(URL);
  var html = source.getContentText('BIG5');

  //DOM解析HTML
  const $ = Cheerio.load(html,{ decodeEntities: false });

  var table, tr, td;
  //表格資訊
  table = $('table table').eq(0);  
  tr = table.find('tr');
  td = tr.eq(0).find('td');    
  sheet.getRange(1, 1).setValue(td.eq(0).text().trim());
  sheet.getRange(1, 3).setValue(td.eq(1).text().trim());

  //表格內容
  table = $('table table').eq(1); 
  tr = table.find('tr');
  for(var i = 0 ; i < tr.length ; ++i)
  {
    td = tr.eq(i).find('td');
    for(var j = 0 ; j < td.length ; ++j)
    {
      sheet.getRange(i + 2, j + 1).setValue(td.eq(j).text().trim());
    }
  } 
}


步驟5:點擊「存檔」與「執行」按鈕。

接著就是一連串的權限設定。







最後執行的結果。


參考資料

沒有留言:

張貼留言