Pythonでファイナンス分析の勉強（その４）: Udemyで技術習得！気の向くままにのんびりと

2021年05月15日

Pythonでファイナンス分析の勉強（その４）

Pandas

Pandasとは、データ操作に用いられるライブラリで、CSVの表やhtmlから表の抽出して加工計算できるライブラリだ。機械学習の際に対象のデータを整理する際に便利に使えるものだ。

本講座では、PandasのSeries, DataFrameの作り方から、csvの読み込み, htmlからの表の抽出、独自関数の適用に関して学習する。
Pandasの読み込み関数であるread_*は多くのフォーマットに対応しており、いろいろなデータ形式からテーブル情報を抽出して読み込みができる。
いったん、よく使いそうなAPIを列挙しておこう。

・read_clipboard
　クリップボードデータの読込み
・read_csv
　csvデータの読込み
・read_excel
　・excelデータの読込み
・read_html
htmlの読込み
・read_json
　jsonデータの読込み
・read_sql
　sqlデータの読込み

使い方の例：

csv = pd.read_csv("temp.csv")
csv.to_csv("temp_bk.csv", index = False)

独自の関数を適用する際は、関数を定義して、dataframeのapplyのメソッドでその独自関数を指定することでできる。

次は、ソートとデータのマージ結合に関して勉強だ。
ソートはsort_valuesのAPIにbyでソートする列を指定して行う。
DataFrame自体の内容に結果を反映させるためには、inplace=Trueの指定を行う必要がある。

最後は、DataFrameのマージと合体を行った。
この章では頻繁にSeriesやDataFrameの作成を行ったが、これが私にとってはとても面倒くさかった。
例えば、Seriesを作る際に、