最新消息

[公告2014/05/30] 如有需要將部落格中,任何一篇文章的程式碼使用在商業用途,請與我聯繫。

[公告2015/04/26] Line版的 iInfo程式與投資應用 群組已上線想加入的朋友們,請先查看 "入群須知" 再與我聯繫 Line : aminwhite5168,加入請告知身分與回答 "入群須知" 的問題。

[公告2018/04/22] 台北 Python + Excel VBA 金融資訊爬蟲課程,課程如網頁內容 金融資訊爬蟲班:台北班 Python 金融資訊爬蟲、EXCEL VBA 金融資訊爬蟲

[公告2019/01/08] 請注意:我再次重申,部落格文章的程式碼,是要提供各位參考與學習,一旦網頁改版請自行修改,別要求東要求西要我主動修改,你們用我寫東西賺錢了、交差了,請問有分我一杯羹嗎?既然賺錢沒分我,請問有什麼理由要求我修改,如果沒能力改,就花錢來找我上課。

[公告2019/12/01] 若各位有 Excel VBA 案子開發需求,歡迎與我聯繫,可接案處理。

[公告2020/05/22] 頁面載入速度慢,起因為部分JS來源(alexgorbatchev.com)失效導致頁面載入變慢,目前已做調整,請多見諒。

2013年11月30日 星期六

Python抓取個股財務比率合併財報季表

抓取"個股財務比率合併財報季表",我們以台泥1101來作範例。
抓取 http://jsjustweb.jihsun.com.tw/z/zc/zcr/zcr_1101.djhtm 有興趣可參考如下Python。
# -*- coding: utf-8 -*-

import urllib, chardet
from sgmllib import SGMLParser
    
class Parser(SGMLParser):
    def __init__(self):
        SGMLParser.__init__(self)

    def reset(self):
        SGMLParser.reset(self)
        self.start = False
        self.header = False
        self.item = False        
        self.data = False
        self.rowcount = 0
        self.columncount = 0
        self.tablecolumncount = 0
        self.info = []        
        
    def parse(self,data):
        self.feed(data)
        self.close()

    def start_tr(self, attrs):
        for name, value in attrs:
            if len(attrs) == 1 and name == 'id':
                if value == 'oScrollMenu':
                    self.start = True
                    
    def start_td(self, attrs):
        if len(attrs) == 2:
            if attrs[1][0] == 'colspan' and self.tablecolumncount == 0:
                self.tablecolumncount = int(attrs[1][1])

        if self.start:
            for name, value in attrs:                     
                if len(attrs) == 1 and name == 'class':
                    if value == 't2':
                        self.header = True
                        if self.columncount == 0:
                            self.info.append([])
                    elif value == 't4t1':                        
                        self.item = True
                        self.info.append([])
                    elif value == 't3n1' or value == 't3r1':
                        self.data = True                    
        
    def handle_data(self, text):
        if self.header:
            #print "header = "+ text
            self.header = False
            self.info[self.rowcount].append(text.strip())
            self.columncount += 1
            
        elif self.item:
            #print "Item = "+ text
            self.item = False            
            self.info[self.rowcount].append(text.strip())            
            self.columncount += 1
            
        elif self.data:
            #print "Data = " + text
            self.data = False            
            self.info[self.rowcount].append(text)
            self.columncount += 1
            
        if self.columncount == self.tablecolumncount and self.tablecolumncount != 0:
            self.columncount = 0
            self.rowcount += 1
                        
def main():
    url = "http://jsjustweb.jihsun.com.tw/z/zc/zcr/zcr_1101.djhtm"
    webcode = urllib.urlopen(url)
    if webcode.code == 200:
        stock = Parser()
        webdata = webcode.read()
        mychar = chardet.detect(webdata)
        print "Web Encoding : " + mychar['encoding']
        stock.parse(webdata)        
        webcode.close()

    for i in range(0, len(stock.info)):        
        for j in range(0, len(stock.info[i])):
            print  stock.info[i][j],
        print "\n"
        
if __name__ == "__main__":
    main()   

執行結果如下: