最新消息

[公告2014/05/30] 如有需要將部落格中,任何一篇文章的程式碼使用在商業用途,請與我聯繫。

[公告2015/04/26] Line版的 iInfo程式與投資應用 群組已上線想加入的朋友們,請先查看 "入群須知" 再與我聯繫 Line : aminwhite5168,加入請告知身分與回答 "入群須知" 的問題。

[公告2018/04/22] 台北 Python + Excel VBA 金融資訊爬蟲課程,課程如網頁內容 金融資訊爬蟲班:台北班 Python 金融資訊爬蟲、EXCEL VBA 金融資訊爬蟲

[公告2019/01/08] 請注意:我再次重申,部落格文章的程式碼,是要提供各位參考與學習,一旦網頁改版請自行修改,別要求東要求西要我主動修改,你們用我寫東西賺錢了、交差了,請問有分我一杯羹嗎?既然賺錢沒分我,請問有什麼理由要求我修改,如果沒能力改,就花錢來找我上課。

[公告2019/12/01] 若各位有 Excel VBA 案子開發需求,歡迎與我聯繫,可接案處理。

[公告2020/05/22] 頁面載入速度慢,起因為部分JS來源(alexgorbatchev.com)失效導致頁面載入變慢,目前已做調整,請多見諒。

2018年8月9日 星期四

Python 資料處理(2) --- 工作環境 Python 2.6.4 抓期交所保證金

要抓期交所保證金的頁面,加上工作環境只能用Python 2.6.4,還無法安裝 Requests、Pandas、BeautifulSoup等套件,只能用原始環境的套件urllib2、lxml 、csv,只能用整個讓自己退版到 Python2.x,還好 Python2.x的環境有摸過,不然這下子就GG。
期交所保證金 https://www.taifex.com.tw/chinese/5/IndexMargining.asp

Python程式碼如下:
import urllib2
from lxml import etree
import csv

def url(index):
    return {
        1 : "indexMarging",
        2 : "stockMargining",
        3 : "stockMargining",
        4 : "iRMargining",
        5 : "goldMargining",
        6 : "fXMargining"
    }[index]

def filename(index):
    name = {
        1 : "Index.csv",
        2 : "Stock.csv",
        3 : "ETF.csv",
        4 : "IR.csv",
        5 : "Gold.csv",
        6 : "FX.csv"
    }
    return name.get(index, "")

def taifex(url, index):    
    try:
        res = urllib2.urlopen(url)
        content = res.read()

        html = etree.HTML(content)

        if index == 2:
            tr = html.xpath('//div[@id="printhere"]/div[@class="section"]/table[@class="table_c"][1]/tbody/tr')     
        elif index == 3:
            tr = html.xpath('//div[@id="printhere"]/div[@class="section"]/table[@class="table_c"][2]/tbody/tr')  
        else:
            tr = html.xpath('//div[@class="section"]/table[@class="table_c"][1]/tr') 

        row = []
        for td in tr:
            col = []
            for data in td:
                if index == 2:
                    col.append(data.text.strip().replace(',', '').encode("big5hkscs"))
                else:
                    col.append(data.text.strip().replace(',', '').encode("big5"))
            row.append(col)

        filepath = filename(index)

        with open(filepath, "w") as csvfile:
            writer = csv.writer(csvfile, quoting=csv.QUOTE_NONE, escapechar='', lineterminator='\n')
            writer.writerows(row[1:]) 
    except Exception as e:
        print e        

for i in range(1, 7):
    print("抓 https://www.taifex.com.tw/cht/5/" + url(i))
    taifex("https://www.taifex.com.tw/cht/5/" + url(i), i)
    print("資料完成抓取...\n")

執行結果:
6個檔案中的其中一個檔案的畫面。