PR

プロフィール

パパぱふぅ

パパぱふぅ

キーワードサーチ

▼キーワード検索

2018.07.17
XML
カテゴリ: 書籍
データサイエンス入門

データサイエンス入門

 ビッグデータの扱いは分析において注意すべき点は、ビッグデータが持つバイアスである。(53ページ)
著者・編者 竹村彰通=著
出版情報 岩波書店
出版年月 2018年4月発行

著者は、滋賀大学データサイエンス教育研究センター長で、数理統計学がご専門の竹村彰通さん。データ構造に関わるプログラミング技術を整理しているところで、復習の意味で本書を買った。ビッグデータや人工知能(機械学習)といった流行の基盤にデータサイエンスがあることを紹介し、非科学的なデータの羅列に騙されないよう統計学や確率論に限界があることにも触れており、理系の方にも文系の方にも、入門書としておすすめする。

冒頭で、「データ処理、データ分析、価値創造の 3 つの要素をデータサイエンスの 3要素と呼ぶ」「データサイエンスは機械学習によるビッグデータからの価値創造ということもできる」(2 ページ)と定義する。質の良いデータが大量に得られれば、機械学習が良い性能を発揮する。プログラマの多くが認識しているところではあるが、逆に考えると、偏ったデータを大量に与えれば、AI の判断も偏ったものになる。これが AI の落とし穴である。

第2章では、データに「間隔尺度」と「順序尺度」があることを紹介している。プログラムでデータを扱う場合、型宣言などのデータ属性の定義を行うが、これと関係する。そして、「ビッグデータの扱いは分析において注意すべき点は、ビッグデータが持つバイアスである」(53 ページ)と指摘する。多くの場合、ビッグデータは集めやすいデータ集合だからである。

相関関係と因果関係の違いについても説明している。わかりやすい例として、Twitter でも話題になった 2017 年 7 月 22 日に放送された NHK スペシャル「AI に聞いてみた どうすんのよ!? ニッポン」を取り上げている。竹村さんは、データに基づく意志決定は可能であるとしながらも、人間の五感で得られる情報を全てデータ化できているわけではないから、「『経験と勘に基づく』意志決定を、相反するものと考えることは誤り」(89 ページ)「十分なデータがあれば唯一の合理的な判断ができるという考え方も正しくない。それはデータがあっても将来の不確実性が大きい場合があるから」(90 ページ)と指摘する。

付録として、統計学周辺やコンピュータの歴史が述べられている。どんな学問を学ぶにしても、歴史を振り返っておくことは大切だ。「おわりに」では、本書で触れていない最新の情勢を羅列している。IPA がデータサイエンティストとのスキルを盛り込んだ「ITSS+」を公表していることは未見であった。






お気に入りの記事を「いいね!」で応援しよう

最終更新日  2018.07.17 13:03:13
コメント(0) | コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Create a Mobile Website
スマートフォン版を閲覧 | PC版を閲覧
Share by: