最新消息

[公告2014/05/30] 如有需要將部落格中,任何一篇文章的程式碼使用在商業用途,請與我聯繫。

[公告2015/04/26] Line版的 iInfo程式與投資應用 群組已上線想加入的朋友們,請先查看 "入群須知" 再與我聯繫 Line : aminwhite5168,加入請告知身分與回答 "入群須知" 的問題。

[公告2018/04/22] 台北 Python + Excel VBA 金融資訊爬蟲課程,課程如網頁內容 金融資訊爬蟲班:台北班 Python 金融資訊爬蟲、EXCEL VBA 金融資訊爬蟲

[公告2019/01/08] 請注意:我再次重申,部落格文章的程式碼,是要提供各位參考與學習,一旦網頁改版請自行修改,別要求東要求西要我主動修改,你們用我寫東西賺錢了、交差了,請問有分我一杯羹嗎?既然賺錢沒分我,請問有什麼理由要求我修改,如果沒能力改,就花錢來找我上課。

[公告2019/12/01] 若各位有 Excel VBA 案子開發需求,歡迎與我聯繫,可接案處理。

[公告2020/05/22] 頁面載入速度慢,起因為部分JS來源(alexgorbatchev.com)失效導致頁面載入變慢,目前已做調整,請多見諒。

2012年8月11日 星期六

Python抓取股票代碼

使用Python解析網頁元素抓取股票代碼


觀察證交所提供的股票代碼網頁中,每支股票代碼的網頁標籤以td作為起點,其屬性為bgcolor=#FAFAD2,由於屬性長度為1,所以可將此作為取得每支股票的主要識別起頭。

如上圖所示,如果以屬性bgcolor=#FAFAD2來找我們要的股票代碼勢必會有機會出錯,因為會遇到屬性長度為2的資料,而這並非是我們所要的內容,必須要找出屬性長度為1才是我們要的資料。

故程式依據上述的特性來撰寫,以取得股票代碼。

#!/usr/bin/python
# -*- coding: utf-8 -*-

#---------------------------------------------
#   抓股票代碼
#   Version : 0.1
#   Author : Amin white
#   Release Date : 2012-01-01
#   Python version : 2.7.2
#---------------------------------------------

#引用函式庫
import urllib, sgmllib

def main():
    
    #上市, 上櫃股票代碼網址
    StockType = [2,4]

    for i in range(0, len(StockType)):
        url = "http://brk.twse.com.tw:8000/isin/C_public.jsp?strMode=" + str(StockType[i])  
    
        #解析網頁開始
        webcode = urllib.urlopen(url)
        if webcode.code == 200:
            stock = ParsestrModeWeb().feed(webcode.read())
            webcode.close()            
        
class ParsestrModeWeb(sgmllib.SGMLParser):

    #初始化變數數值
    def reset(self):
        sgmllib.SGMLParser.reset(self)
        self.stockinfo = False
        self.cell = 0 

    #解析網頁標籤為td的內容    
    def start_td(self, attrs):
        if len(attrs) == 1:
            if attrs[0][0] == 'bgcolor' and attrs[0][1] == '#FAFAD2':
                self.stockinfo = True
                self.cell+=1
                self.cell%=7

    #開始讀取股票代碼          
    def handle_data(self, text):
            if self.stockinfo:                
                if self.cell == 1:                   
                    data = text.strip().split("    ")
                    if data[0].isalnum():
                        print data[0].strip()  + " " + data[1].strip()
                self.stockinfo = False
            
if __name__ == "__main__":
    main()

Python執行結果畫面