広告

posted by fanblog

2017年10月08日

徒然〜HTML解析〜

本日はHTML解析の手順を徒然と記載していきます。
昨日までの流れは こちら

今回の目的としては、文章の自動生成を目的とし、方針は定型文と
内容を自由に変更できるorその場に合わせて変更できる語句を"自由語"と
ここでは定義し、主に"自由語"を変更させることで、文章の作成を
行っていきますという方針で書いてきました。

さて、本日は"自由語"の選択方式の1つとしてあげました、HTMLの解析を
扱っていきたいと思います。




まずHTMLとは何ぞや・・・
HyperText Markup Language(HTML)はざっくりいうとWebページ表示用のマークアップ言語。
文章構造(段落)やフォントなどの変換が行えるものです。

タグ(属性?[文章定義見直します])によってで囲われた要素がブラウザー上では表示されます。

簡単にHTMLの例を見てみると
<head>
 <title>TEST</title>
</head>
<body>
 本文
</body>

かなりざっくり書くと
・<head>:タイトルやCSS/JSなどWebページの構成を記載
・<body>:本文を記載
の2つの要素に分かれていることが多いです。
(一概にこれが正しいわけではないです)



さて、ここで今日の本題に戻りますと、HTML解析にはbody要素を基本的には考えていくこととなります。
実例として今回は「日経平均」と「売買高」の情報を収集したいと思います。

注意事項として、スクレイピングの問題があるため、使い方には注意してください。
Webスクレイピングの注意事項一覧 - Qiita などを参考にして、使い方には注意を。

具体的なプログラム言語などはまた別途記載していきます。



【このカテゴリーの最新記事】
posted by もけ at 10:19 | TrackBack(0) | 日記

この記事へのトラックバックURL
https://fanblogs.jp/tb/6787712
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
Build a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: