fc2ブログ
  • 館内放送 [ツイッター]

    キンコンカンコーン・・・うみゃーだよ。館内放送だみゃ。
    ・・・・・キンコンカンコーン・・・ブツ
  • 町内会からのお知らせ [相互RSS]

【技術部】 Pythonで東証のホームページから売残情報を抽出する 第2回 - Excelファイルの取得


※カテゴリー【技術部】は技術者向けの記事となります。

Pythonを使用して、東証のホームページから売残情報を取得します。


目的
東証のホームページから空売り情報を取得する。



使用するもの
Python 2.7



このページで説明する内容
第2回の今回は、Excelファイルのダウンロード部分について説明します。


前回
【技術部】 Pythonで東証のホームページから売残情報を抽出する 第1回 - 概要説明



必要なパッケージ
Excelファイルダウンロード部分では以下のパッケージを使用します。

urllib
指定のホームページからソースファイルやExcelファイルを取得するパッケージ

re
正規表現を使用して対象の文字を抽出するパッケージ



サンプルソース
# -*- coding: utf-8 -*-
import urllib
import re

# ① データ取得先
base   = "http://www.jpx.co.jp"
url    = base + "/markets/public/short-selling/"

# ② データ保存先
target = u"/home/"

# ③ HTMLデータ取得
result = urllib.urlopen(url)

# ④ 正規表現
pattern = r'\/(\S+?\.xls)'
text = result.read()
iterator = re.finditer( pattern ,text )

# ファイルリスト処理
for match in iterator:
  file_url = match.group()
  
  # ⑤ URL文字列 分割
  splts = file_url.split("/")
  if splts is None:
    continue
  
  file_name = splts[-1]
  
  # ⑥ データダウンロード
  urllib.urlretrieve( base + file_url, target + file_name )


【説明】
① 東証のホームページのURLです。前半部分はExcelファイルダウンロード時にも使用します。
② Excelファイルの保存先です。
③ urllib を使用してホームページのソースファイルを取得します。
④ re パッケージの正規表現を使用してExcelファイルのURLを取得します。
⑤ ExcelファイルのURLからExcelファイル名を取得します。
⑥ urllib を使用してファイルをダウンロードします。



実行結果
/home/20151102_Short_Positions.xls
/home/20151104_Short_Positions.xls
/home/20151105_Short_Positions.xls
/home/20151106_Short_Positions.xls
/home/20151109_Short_Positions.xls
/home/20151110_Short_Positions.xls
/home/20151111_Short_Positions.xls
/home/20151112_Short_Positions.xls
/home/20151113_Short_Positions.xls
/home/20151116_Short_Positions.xls
/home/20151117_Short_Positions.xls
/home/20151118_Short_Positions.xls
/home/20151119_Short_Positions.xls
/home/20151120_Short_Positions.xls
/home/20151124_Short_Positions.xls
/home/20151125_Short_Positions.xls
/home/20151126_Short_Positions.xls


ホームページからExcelファイルをダウンロードできました。



次回は・・・
Pythonを使用してダウンロードしたExcelファイルから情報を抽出します。



関連記事
【技術部】 Pythonで東証のホームページから売残情報を抽出する 第1回 - 概要説明
【技術部】 Pythonで東証のホームページから売残情報を抽出する 第2回 - Excelファイルの取得

関連記事
この記事へのリアクション

コメントの投稿

非公開コメント




タグ:技術部Python東証売残情報

プロフィール

うみゃー・アパカ

Author:うみゃー・アパカ
UMYA.net公式ブログです。
ツイッター:umya_net


リンクフリーです!
アドレス:http://umyanet.blog.fc2.com/

公式ホームページ

ラインスタンプ配信中!

リンク



スマホアプリ配信中

黄金疾走

スポンサード

人気商品

Powered by amaprop.net