Pandas
Pandasとは、データ操作に用いられるライブラリで、CSVの表やhtmlから表の抽出して加工計算できるライブラリだ。機械学習の際に対象のデータを整理する際に便利に使えるものだ。
本講座では、PandasのSeries, DataFrameの作り方から、csvの読み込み, htmlからの表の抽出、独自関数の適用に関して学習する。
Pandasの読み込み関数であるread_*は多くのフォーマットに対応しており、いろいろなデータ形式からテーブル情報を抽出して読み込みができる。
いったん、よく使いそうなAPIを列挙しておこう。
・read_clipboard
クリップボードデータの読込み
・read_csv
csvデータの読込み
・read_excel
・excelデータの読込み
・read_html
htmlの読込み
・read_json
jsonデータの読込み
・read_sql
sqlデータの読込み
使い方の例:
csv = pd.read_csv("temp.csv")
csv.to_csv("temp_bk.csv", index = False)
独自の関数を適用する際は、関数を定義して、dataframeのapplyのメソッドでその独自関数を指定することでできる。
次は、ソートとデータのマージ結合に関して勉強だ。
ソートはsort_valuesのAPIにbyでソートする列を指定して行う。
DataFrame自体の内容に結果を反映させるためには、inplace=Trueの指定を行う必要がある。
最後は、DataFrameのマージと合体を行った。
この章では頻繁にSeriesやDataFrameの作成を行ったが、これが私にとってはとても面倒くさかった。
例えば、Seriesを作る際に、
i = "A", "B", "C", "D"
d = [1,2,3,4]
s = pd.Series(d, index = i)
ダブルコーテーションが多くて面倒だし、1,2,3,4と数字をいちいち入力するのも面倒くさい。
そこで改善策を考えた。
i = list("ABCD")
d = range(1,5)
s = pd.Series(d, index = i)
ましになった。
よかった、よかった。
次はmatplotlibを復習する。
このコースへのリンク
Python & Machine Learning for Financial Analysis
全般ランキング
【このカテゴリーの最新記事】
- no image
- no image
- no image