はじめに
トピックモデルを用いて投資情報を取得しようという徒然の続きです。
大まかな流れとやりたいことはこちら→: 株式投資のためのテキスト解析 ─ 1
投資をするにあったって、 情報をいかに選別するか は、
一度は考えたことがある人が多いと思います。
ニュース、投資記事をすべてに目を通すことができれば、
よいと思いますが、 時間がない 。。。
そこで 直近のニュースなどの情報から話題を見たいな! という目的で解析を行います。
今回は書き損ねたことを徒然と書いていきます。
・ テキスト情報をどのように扱うか
・ 実際に この3連休の情報を解析 しました
←トピックモデルよりももっと 初歩的な手法です。
テキストをどう扱うか
早速ですが、 ニュース記事を機械的に解析する方法をご存知でしょうか?
株式投資のためのテキスト解析 ─ 1 では、かなり荒くトピックモデル使うと書いただけで、
どのように文章を扱えるようにするか を書いてなかったですね。。。
使い方としては、 形態素解析 で文章を扱えるようにします。
初めて目にする・耳にするという方のほうが多い気がしますが、
AI技術の基礎の1つの自然言語処理のジャンルに含まれるものですね。
形態素解析は、皆さんが何気なく使っている言葉を 単語に分割するような技術です。
英語の場合、単語ごとに 半角スペースが入っており、
単語単位に区切ることは何らむつかしくはないですよね。
しかし、 日本語は 単語がつながっており、活用形までもありますね。
この時、 文章を単語区切りにするのが形態素解析 です。
※正確には単語というよりかは意味の通る最小単位。
有名なところでは、 MeCab などがあります。
使い方などは、時間があるときに書きます。
この形態素解析を用いて、ニュースなどの記事を単語に分割して、
使われている単語の類似性 をみて、 記事を分割する ために
トピックモデルを用いたいという話でしたね。
実際に解析
今回は、この3連休のニュース記事を収集して、解析をした結果を見ます。
手順
- ニュース記事を集める
- 形態素解析を適用する
- 得られた単語をまとめる
- 単語ごとに類似性を求める
- 類似性で単語をグラフにプロット
だいぶざっくり書くとこんな感じです。
この記事内では、理論より活用方法と考えているので、
早々にグラフにプロットした結果です。
黄色い丸が「単語」、 丸をつなぐ線が単語ごとに
関連性を表しており、太いほど関連する単語対です。
また、 近い単語同士は同じ記事で使われやすい単語 です。
結果
この週末の主な話題としては、
- トランプ大統領来日
- 企業決算情報
- 日経平均株価
などがありますね。
結果を見てみると、単語が重なってて醜ですが、
大まかに、図の中央部にその話題に関連する単語が並んでいます。
一部を拡大すると、
トランプ大統領の話題としては、アメリカの中央銀行に当たる
次期FRB議長の指名がありましたね。その話題が取れていますね。
また、株式に関する単語をピックアップすると
このようになっており、日経平均株価の上昇や
何かしらの リスクが低下したことが見られます。
しかし、 詳細はこれだけではわからないため、
元の 文章を読む必要もありますが、大まかな流れは見て取れる と思います。
わざわざトピックモデルまで手を出さずとも、
今回の結果でもいい感じはしますが・・・
詳細なやり方はまた別途 書きます!
【このカテゴリーの最新記事】
- no image
- no image
- no image
- no image
- no image