昨日までの流れは こちら 。
今回の目的としては、文章の自動生成を目的とし、方針は定型文と
内容を自由に変更できるorその場に合わせて変更できる語句を"自由語"と
ここでは定義し、主に"自由語"を変更させることで、文章の作成を
行っていきますという方針で書いてきました。
さて、本日は"自由語"の選択方式の1つとしてあげました、HTMLの解析を
扱っていきたいと思います。
いちばんやさしいHTML5&CSS3の教本 人気講師が教える本格Webサイトの書き方【電子書籍】[ 赤間公太郎 ]
価格: 1,944円
(2017/10/8 10:27時点)
感想(0件)
まずHTMLとは何ぞや・・・
HyperText Markup Language(HTML)はざっくりいうとWebページ表示用のマークアップ言語。
文章構造(段落)やフォントなどの変換が行えるものです。
タグ(属性?[文章定義見直します])によってで囲われた要素がブラウザー上では表示されます。
簡単にHTMLの例を見てみると
<head>
<title>TEST</title>
</head>
<body>
本文
</body>
かなりざっくり書くと
・<head>:タイトルやCSS/JSなどWebページの構成を記載
・<body>:本文を記載
の2つの要素に分かれていることが多いです。
(一概にこれが正しいわけではないです)
さて、ここで今日の本題に戻りますと、HTML解析にはbody要素を基本的には考えていくこととなります。
実例として今回は「日経平均」と「売買高」の情報を収集したいと思います。
注意事項として、スクレイピングの問題があるため、使い方には注意してください。
Webスクレイピングの注意事項一覧 - Qiita などを参考にして、使い方には注意を。
具体的なプログラム言語などはまた別途記載していきます。