One of my favorite things is ...

2019.08.07
XML
テーマ: 宇宙(895)
カテゴリ: データ分析
​​  NASAのサイト(https://cneos.jpl.nasa.gov/ca/)からNEO(Near Earth Object)のデータをMicrosoft Power BI Desktopに読み込んで、月別にNEOの観測個数を分析しています。

 2001年の10月、2002年の10月、・・・、2018年の10月というように、同じ月について、各年の観測個数の分布状況を示したのが、下の箱ひげ図です。箱の中にある●が平均値、線が中央値を示しています。


 NEOの観測個数の年によるバラツキが大きいと、箱やひげの長さが長くなります。年によるバラツキが小さいと、箱やひげの長さは短くなります。

 11月は、箱の長さや上ひげの長さが長いので、年によってNEOの観測個数がかなり異なっていることがわかります。

 6月、7月、8月は箱の長さが短く、NEOの観測個数の少ない年ばかりであることがわかります。


▼10月と8月の2群で、NEOの観測個数の平均値について、「平均値の差のt検定」をしてみました

 統計的仮説検定では、標本データから母集団についての推測を行うことになりますが、NASAのNEOデータを標本データ、母集団をまだ発見されていないNEOも含めた全体の集団と捉えて、統計的仮説検定をしてみました。

 帰無仮説は、「10月と8月のNEOの観測個数の平均値は同じである」というものです。この帰無仮説について、2群の平均値の差のt検定を行いました。

 群馬大学の青木先生のサイトに、t検定の結果を出力する計算ツールがあります(http://aoki2.si.gunma-u.ac.jp/JavaScript/ttest2.html)。

 そのツールのデータ入力窓にデータを貼り付けると、t検定の出力結果を表示してくれます。


 なお、等分散性の検定で、10月と8月の年別観測個数の分散が等しい確率が低い、という結果になっています。これは、「等分散が仮定できないとき」に当てはまるので、 「Welch の方法」でのt検定 の結果を見ます。

 すると、「P 値 = 0.00019」となっています。これは、「10月と8月のNEOの観測個数の平均値は同じである」という帰無仮説が正しいとした場合に、今回のデータが得られる確率が極めて小さいことを示しています。そこで、対立仮説「平均値に差がある」が採用されることになります。

 10月と8月のNEOの年別観測個数の平均値には、1%(0.01)水準で有意差があるということになります。

 そして、どの程度の違いがあるのか、という「効果量(effect size d)」の値が、1.46828となっていますが、これは、「とても大きい(very Large )」違いがあると解釈される値です。

10月は、8月に比べて地球に接近するNEOの個数の平均値がとても多い、と言えるようです。




▼入力データ

8月:0,0,0,0,0,1,0,0,0,0,0,0,2,1,1,1,3,2


10月:0,0,1,1,2,2,5,5,4,6,4,3,5,4,2,5,11,4



▼検定結果出力

第一群:8月
 標本サイズ = 18
     平均値 = 0.611111
   不偏分散 = 0.839869
第二群:10月
 標本サイズ = 18
     平均値 = 3.55556
   不偏分散 = 6.84967
二群の等分散性の検定
   F 値 = 0.122615
 自由度 = ( 17, 17 )
   P 値 = 0.000078 (両側確率)
通常の t 検定(等分散性が仮定できるとき)
   t 値 = 4.50494
 自由度 = 34
   P 値 = 0.00007
等分散性が仮定できないとき(Welch の方法)
   t 値 = 4.50494
 自由度 = 21.10715
   P 値 = 0.00019 (小数自由度に対応した正確な値)
effect size g = 1.50165
effect size d = 1.46828



▼ベイジアン統計の手法でも、平均値の差があることが確認できます

 P値、帰無仮説を用いる従来型の統計学での検定は、帰無仮説、対立仮説の関係がわかりにくいのですが、ベイジアン統計による検定は単純明快な感じがします。

 ベイジアン統計では、母集団の平均値や標準偏差に唯一の真の値を想定せず、母集団の平均値や標準偏差も分布するという考え方がベースになっています。

 下図は、ベイジアン統計の考え方で2群の平均値の差を検定する「BEST」というRのパッケージ(https://cran.r-project.org/web/packages/BEST/index.html)を用いて、MCMC法によって10月と8月の平均値の差の分布を導き出したものです。

 「平均値の差」の平均は3.36で、下図の95%HDI区間「1.97~4.68」には、ゼロが含まれていないので、2群の平均値には差があるということになります。

 事前分布(priors)によって、また、MCMCの設定で結果が少し変化する点に留意する必要がありますが、「差がある確率は何%」と明快な結論が出るので、結果の解釈はわかりやすいと思います。

 この平均値の差のデータ分布図からすると、
95%HDI区間どころか、100 %HDI区間にゼロが含まれていないので、「2群の平均値に差がある確率は、100%」である、ということになると思います。



※「R」を利用しなくても、オンラインでベイジアン統計の「2群の平均値の差の検定」ができるサイトがあります(Bayesian Estimation Supersedes the t-test (BEST) - Online:http://sumsar.net/best_online/)。
 MCMCの様子がアニメーションとして見られるので、楽しい感じです。P値にこだわらないのであれば、このサイトで2群の平均値の差の有無を判断するのもいいかもしれません。





☆関連記事
▼地球に接近する小惑星の数が多いのは10月頃?。少ないのは8月?:月別にかなり違いが見られます:Microsoft Power BI Desktopは、無料で利用できる、インタラクティブなインフォグラフィック作成ツールです

▼データ前処理の例(その2):Microsoft Power BI用データを準備するための処理の例:NASAのNEOデータをダウンロードし、英語の月名を含む日付の文字列を日付データに変換して、Power BIに読み込む

▼Microsoft Power BI用データを準備するための前処理の例です:NASAのNEOデータをダウンロードし、小惑星の大きさの推定値をExcelで取り出し、単位変換して、Power BIに読み込む

▼地球をかすめた小惑星「2019 OK」は、0.2LD以下の距離に接近したNEOの中で過去最大だったようです:NASAの1万3千件以上のNEOデータから

▼小惑星「2019 OK」は、過去3年間に0.2LD以下まで地球に接近したNEOの中でも最大でした:NASAのNEOデータをPower BIで分析してみました

▼【グラフを追加しました】:小惑星「2019 OK」はOKでしたが・・・:7月25日に地球とニアミスした、今年最大の小惑星の名前です。

▼「世界の平均気温偏差(℃)」のデータの前処理が、ExcelのPower Queryエディターでもできました:Power Queryエディターは便利です!:簡単に行方向のデータを列方向にできます

▼気象庁の「世界の月平均気温偏差(℃)」のデータを、Accessのユニオンクエリで、横方向から縦方向にデータ形式を変換し、簡単に複数グラフの一覧を作成しました

▼世界の月平均気温偏差:6月は、2019年が過去最高になりました:7月も今年が過去最高水準に?




​​​





お気に入りの記事を「いいね!」で応援しよう

Last updated  2019.11.13 12:11:28
コメント(0) | コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

PR

Free Space











Rebatesお友達紹介キャンペーン

​​ ​​

Comments

digital_21 @ Re[1]:◆【新型コロナ】やっぱり、PCR検査(08/02) 背番号のないエース0829さんへ すてきな内…
背番号のないエース0829 @ Re:◆【新型コロナ】やっぱり、PCR検査 「日本一遅い成人式が、無事終了 !!」に、…

Keyword Search

▼キーワード検索


© Rakuten Group, Inc.
Create a Mobile Website
スマートフォン版を閲覧 | PC版を閲覧
Share by: