傀儡師の館.Python

傀儡師の館.Python

PR

Calendar

Keyword Search

▼キーワード検索

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2008.02.10
XML
カテゴリ: ことばの処理
ふじすえ教授のやさしい政経塾 国会議事録をデータマイニングする を読む。

大学の教え子が経営する会社と一緒に「国会の議事録をデータマイニング」するプロジェクトを動かそうとしています。

らしいが、とりあえず記事では、「偽」を含む発言の分析がされている。

これを見ると、政党別発言数では、自民党44%、民主党36%、公明党8%であるのに対し、「偽」という文字を含む発言では、民主党46%、自民党25%、共産党11%という順になりました。

共産党は発言数割合が 6% で、偽を含むのが 11% ということ?ということは、一番、偽の追求が厳しかったのは共産党ということになるのかな。民主党ではなくて。いや、よく見たら、割合的には社民党が多いな。

各党ごとに全発言中における「偽」を含む割合を見てみると(党ごとの偽を含む発言数 / 党ごとの全発言数)、自民党 0.50%、民主党 1.13%、公明党 0.997 %、共産党 1.625%、社民党 1.772% ということで、民主党は、共産党や社民党よりも「偽」についての追求が弱かったということになる。つまり、社民党がその少ない発言数の 1.772% を割り振ったので一番「偽」の追求には気持ち的に熱心だったと。党ごとの tf/df 的な見方だとそいうことになるわなぁ。罠。

そこに気づいているだけに、偽を含む議員のランキングでは絶対数を使ってきましたね。これも、その議員の発言数の内の何パーセントに「偽」が出現しているかをカウントしなおしてください。いや、絶対数が重要なのですというのであれば、それでいいですよ。民主党の「偽」を含む絶対数は一番なのですから。変な割合だすことないじゃん。

ちなみにリクエストとしては 2006年の「偽」もやってみて欲しい。偽メールとかw

さらに、くだらない揚げ足取りなんだけど、

「偽」という漢字は単独では意味を持ちません。では、国会でどんな「偽」を含む言葉が使われたかを見てみましょう。

なのだけど、

大臣、ことしの、〇七年を一番象徴する言葉が「偽」ということのようであります。

[004/376] 168 - 衆 - 経済産業委員会 - 6号 平成19年12月21日

ウソ行っちゃいけねいだ。「偽」って単独で使われてんじゃん。

○内閣総理大臣(福田康夫君) 漢字。昨日テレビでやっていたやつですか。「偽」というのですね。

○尾立源幸君 偽というと分からないですけれども、偽りですよね、「偽」。その点を中心に今日はお聞きをしたいと思います。
 まず、「偽」、偽りに関して、若干、昨日から議論になっておりますが、年金の問題をまずお聞きをしたいと思います。

[013/376] 168 - 参 - 外交防衛委員会 - 12号
平成19年12月13日



ついでだから、改めて偽メールの問題とかもテキストマイニングしてみるとおもしろいかもしれない。

という冗談はさておき、実際のところ、国会答弁はテキストマイニングしてみるとおもしろいと思う。あと、外務省とかウェブサイトにいろいろ載せているから、日本と外国との関係を国名をベースにしてやってみるとおもしろいと思う。加えて無償資金援助とか、訪問とか、いろんなキーワードを抽出して、それを元に国をクラスタリングする。誰かやってくんないかなぁ。ぜったいおもしろいと思う。まじめにやって論文書けば CIA からスカウトが来ると思う。あるいは、中国からかもしれないけど。それとも日本版エシュロンやってるところからか。

あとは、go.jp サイトをクロールして、官僚や政治家の名前と財団法人名や独立行政法人名を同一文中に表れる頻度から、ネットワークグラフ化してみるとか、関係が始まったのはいつからか検索できるとか。補助金といちばん一緒に出てくる頻度が多い政治家は誰かとか。特定の企業名と一緒に出てくる頻度が多い政治家は誰かとか。そういうのがテキストマイニングでできるといいねぇ。

特定の議員や官僚ごとに何に関心があるかとか調べるとか。

go.jp のテキストマイニングは、パンドラの箱であろう。パンドラの箱は開かれた! 試み自体はおもしろいと思うので是非とも勧めて欲しい。ふじすえ教授、次回はもうちょっと緻密なの出してくださいませ。ということで、楽しみにしておこう。

でも、やっぱり偽メールにしても

 私に寄せられましたメールの中にこういう意見がありましたのでちょっと御紹介しておきたいと思うんですが、これは決して偽メールではありませんので、よろしくお願いします。

[001/004] 164 - 参 - 総務委員会 - 20号
平成18年05月11日

みたいなものもあるわけで、あんまりラフなやり方をしていいかげんな結果を出すと、検証されたときにボロが出るので気をつけないといけないだろうな。傾向をざっくりつかむというのは手法の一つとしてあり得るにしても、そこから何かを言おうとする場合には気をつけないといけないかもしれない。やっぱり KWIC とかでざっとでも見ないといけないだろうな。

最後に、

正直なところ、国会議員の中には、国会活動を軽視し、地元で選挙活動を重点的にやっている議員が選挙で勝ち、国会活動をまじめに行っている議員が選挙で苦戦してしまう現状もあります。



まさに、 小沢氏、テロ新法より大阪府知事選!衆院本会議を途中退席 。地元じゃないからいいんですねw


なかのひと






お気に入りの記事を「いいね!」で応援しよう

Last updated  2008.02.10 14:25:46
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: