Yahooの出来高ページクローニングプログラム製造 [プログラム研究室]



 ナビゲータのEVEです。

 プログラムを作るうえで心配な点がなくなったので、本日から本格的なプログラミングに入っています。まずは、Yahooのページをまじまじと見ています。

[Yahooのページソース]
 Yahooのページを久しぶりにまじまじと見ました。私のページと違っていろいろなタグが入っているので 見にくい 印象です。
 Yahooのサイトが他の多くのサイトと違うのは、動的に作成した部分が、明らかにプログラムで作りましたと分かるところ!それは、改行処理が入っておらずベタ打ちです。実は、私のサイトも同じようにつくっています。

 他のサイトはというと、 人間がHTMLを作っているかのように整形 しています。この情報は、すべてのサイトを見ているわけではないので、正確性が欠いている点についてはご承知ください。

 多くのブラウザは、HTMLの一部が欠損していても忖度して、きれいに表示してくれるため、HTMLがおかしくなっていたとしても、気づきにくいです。そのため、きれいに整形しておいたほうが、そのミスに気づきやすいということがあるからかもしれません。ただ、それでも人間が作るプロラムであるため、 必ずと言っていいほどミス があります。だから、正直言ってそれは 無駄な努力 のような気がします。
 その労力があるなら、もっと 重要な所に力を入れたほうがいい というのが私の考え方です。

[クローニング処理概要]
 以上は余談なのですが、改行処理が入っていないため、Yahooのサイトは、非常に クローニングしやすい というメリットがあります。
 それは、私のほしい情報が1行におさまっているからです。その1行を読み込み、以下の流れで情報を抽出します。

当該テーブルを特定 => 当該行を特定 => 当該セルを特定 => データ抽出

 株式市場には、4,000銘柄ぐらいの商品があり、1ページあたり約50銘柄掲載されているため、約90ページをダウンロードすればすべての銘柄を取得できそうです。

[クローニング項目]
 クローニングする流れは、2023年4月6日のブログに記載した通りです。

?Yahooの出来高から本日取引があった企業及び商品の一覧を取得します。
??情報に基づき、本日取引があった企業の株価情報を取得します。

 ?からは、

・商品名
・証券コード
・市場

だけでいいでしょう?出来高も取得することは可能ですが、 処理の一貫性 からして、しっくりしません。やはり、?で実施するのが、いいでしょう!

 なんてことを考えながら、プログラムを製造中です。

[あとがき]
 明日からまたしばらく恒例の休暇に入ります。また、帰ってきたらブログを書きますので、よろしく!

 では、また!!!


検索
<< 2023年04月 >>
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
最新記事
タグクラウド
カテゴリーアーカイブ
ファン
最新コメント
プロフィール
ゼロから始めるシステム開発さんの画像
ゼロから始めるシステム開発
 こんにちは!ナビゲータのEVEです。各種研究室を用意し、次期EVEシステムを製造しようと日々頑張っています。現在一番力を入れているのが、資金調達です。このブログもその一環ですので、ご協力いただければ嬉しいです。

2023年04月08日

Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: