Visual Studio Code拡張機能でPythonでデータ分析入門　その10

今までのリストが、「Google Coraboratory」でも動くか挑戦してみました。
とりあえず、リスト１の分だけ、以下に掲載しますが、「ma03000.csv」ファイルの位置を設定することで、リスト２～７も動きました。

# 「Google Coraboratory」でのPython開発環境に挑戦！！

#　参考にしたURLは次のとおり。

#　https://blog.kikagaku.co.jp/google-colab-howto

#　最初、なかなかうまく動かず、原因が分かりませんでした。

#　どうも、読み込むべきファイル（ma030000.csv）が読み込めていないよう

#　なのですが、どこに置けば良いのかが、分かりませんでした。

#　次のURLに、ファイルを読み込み方が書いてあり、参考になりました。

#　https://www.ushiji.online/colab-file-upload

#　Google Coraboratoryでファイルを読み込む場合、いろいろなやり方がある

#　ようですが、Google Drive（グーグルドライブ）を接続する（マウント）

#　方法を採用しました。

#　①「Google Coraboratory」を起動する。

#　②左のファイルアイコンをクリックして開き、上に3つ並んでいるアイコンの

#　　一番右側のアイコンをクリックして、Google Drive（グーグルドライブ）を

#　　接続（マウント）する。

#　③読み込みたいファイル（ここでは、「ma030000.csv」）を「MyDrive」の直下

#　　置く。

#　④これで、'/content/drive/MyDrive/ma030000.csv'とすることで、ファイルに

#　　アクセスできるようになる。

#=====================================================================

# 特集１　Visual Studio Code拡張機能でPythonでデータ分析入門

#『日経ソフトウエア』2022年03月号（p.06～p.23）

#　準備編　　「開発環境を構築する」

#　　　　①　Pythonのインストール

#　　　　②　VSCodeのセットアップ

#　　　　③　拡張機能「Python」

#　　　　④　Pythonインタプリタの設定

#　ステップ１「データを確認する」

#　　　　①　オープンデータを利用する

#　　　　②　拡張機能「Edit csv」

#　　　　③　拡張機能「Jupyter」

#　　　　④　変数を可視化する

#　ステップ２「データを整形する」

#　　　　①　表の列名（カラム名）を整形する

#　　　　②　数値ではないデータを置き換える

#　ステップ３「グラフを描画する」

#　　　　①　グラフを作成する

#　　　　②　分析データをCSVで書き出す

#　応用編　　「コードを整理する」

#　　　　①　拡張機能「Gather」

#　この記事では、

#　　VSCodeのバージョンは、1.62.0

#　　Python3.9.7（conda4.10.3）

#　　環境で動作確認を行ったとのこと。

#　プログラムコのサンプルードは、こちらから入手可能のようです。

#　　　ここで利用するCSVファイルには、欠損値などが含まれており、

#　　　そのままではPythonで読み込んでグラフの作成処理ができない。

#　　①　オープンデータを利用する

#　　　　まず、オープンデータの「日本の人口統計データ」のCSVファイルをダウンロードする。

#　　　　「オープンデータ」とは、営利・非営利目的を問わず、２次利用が可能で、かつ無償で

#　　　　利用できる、公開されているデータ。

#　　　　ここでは、デジタル庁が整備、運営する「データカタログサイト」からデータをダウン

#　　　　ロードする。サイトには、次のURLからアクセスできる。

#　　　　https://www.data.go.jp/

#　　　　日本の各都道府県の人口についてのデータ（厚生労働省の「人口動態調査_人口動態統計

#　　　　_確定数_総覧_年次_2020年」というデータセットを検索し、「上巻_3-3-1_都道府県

#　　　　（特別区-指定都市再掲）別に見た人口動態総覧」というCSVファイル）をダウンロード

#　　　　する。

#　　　　ダウンロードしたファイル「ma030000.csv」は、デスクトップに「VSCode_data」と

#　　　　いう作業用のフォルダーを作り、そこに格納する。

#　　　　このCSVファイルをVSCodeで開いて、内容を確認する。

#　　　　画面左側の「エクスプローラー」→「フォルダーを開く」から「VSCode_data」フォルダー

#　　　　を開く。

#　　　　②　拡張機能「Edit csv」

#　　　　　　このままでは、見にくいので、拡張機能「Edit csv」を導入する。

#　　　　　　拡張機能「Edit csv」は、CSVデータを表形式で表示し、編集も可能な拡張機能。

#　　　　　　VSCodeで、「拡張機能」アイコンをクリックし、「Edit csv」を検索し、インストール

#　　　　　　する。

#　　　　　　インストール後、再度「ma030000.csv」ファイルを読み込み、右上の「Edit csv」を

#　　　　　　クリックすると、表形式で表示される。

#　　　　　　明らかに必要のない１～４行目を削除する。

#　　　「Apply changes to file and save」ボタンを押して、保存する。

#　　　　③　拡張機能「Jupyter」

#　　　　　保存した「ma030000.csv」データをPythonで読み込めるかどうかを確認する。

#　　　　　ここから先のPythonコードの入力と実行には、VSCodeの拡張機能「Jupyter」

#　　　　　を使用する。

#　　　　　ノートブック形式で、先ほどデスクトップに作った「VSCode_data」フォルダに

#　　　　　新しくファイル（ファイル名「demographics.jpynb」）を作る。

#　　　　④　変数を可視化する

#　　　　　ノートブックにPythonのコードを記述し、Pythonで処理できるデータとして、CSV

#　　　　　ファイルを読み込めるかどうかを確認する。

#　　　　　データ処理には、[pandas」というモジュールを使用する。

#　　　　　[pandas」では、「DataFrame」という形式でデータを保持して、処理するので、ここでは

#　　　　　CSVファイルを読み込んで、「DataFrame」形式に変換する。

#　リスト1●CSVファイルを「DataFrame」形式で読み込むコード

# (1)「pandas」モジュールを「pd」という名前でインポートする。

import as pd

#　(2)CSVファイルの読み込みは、「pd.read_csv()」で行う。

#　「ma030000.csv」ファイルを読み込み、「data」という「DataFrame」形式の変数に代入する。

#　「ma030000.csv」ファイルは、日本語を含むCSVファイルなので、もじばけしないように

#　「"Shift-jis"」の文字コードを指定している。

#　「pd.read_csv()」では、デフォルトで、先頭１行目が自動的に表の列名として読み込まれてしまう

#　　ので、列名を設定しないように、「header=None」を指定している。

data = pd.read_csv( '/content/drive/MyDrive/ma030000.csv' ,

encoding= "Shift-jis" ,

header= None )

#　(3)「data.head()」は、変数「data」の先頭５行分を表示するコード。

data.head()

お気に入りの記事を「いいね！」で応援しよう

最終更新日 2022.03.04 20:56:37
コメント(0) | コメントを書く

[Python] カテゴリの最新記事

【毎日開催】

15記事にいいね！で1ポイント

10秒滞在

いいね! -- / --

次の日記を探す

おめでとうございます！
ミッションを達成しました。

※「ポイントを獲得する」ボタンを押すと広告が表示されます。

Design a Mobile Site

スマートフォン版を閲覧 | PC版を閲覧