アフィリエイト広告を利用しています

広告

posted by fanblog

2021年05月15日

Pythonでファイナンス分析の勉強(その4)





Pandas




Pandasとは、データ操作に用いられるライブラリで、CSVの表やhtmlから表の抽出して加工計算できるライブラリだ。機械学習の際に対象のデータを整理する際に便利に使えるものだ。

本講座では、PandasのSeries, DataFrameの作り方から、csvの読み込み, htmlからの表の抽出、独自関数の適用に関して学習する。
Pandasの読み込み関数であるread_*は多くのフォーマットに対応しており、いろいろなデータ形式からテーブル情報を抽出して読み込みができる。
いったん、よく使いそうなAPIを列挙しておこう。

・read_clipboard
 クリップボードデータの読込み
・read_csv
 csvデータの読込み
・read_excel
 ・excelデータの読込み
・read_html
htmlの読込み
・read_json
 jsonデータの読込み
・read_sql
 sqlデータの読込み

使い方の例:
csv = pd.read_csv("temp.csv")
csv.to_csv("temp_bk.csv", index = False)


独自の関数を適用する際は、関数を定義して、dataframeのapplyのメソッドでその独自関数を指定することでできる。

次は、ソートとデータのマージ結合に関して勉強だ。
ソートはsort_valuesのAPIにbyでソートする列を指定して行う。
DataFrame自体の内容に結果を反映させるためには、inplace=Trueの指定を行う必要がある。

最後は、DataFrameのマージと合体を行った。
この章では頻繁にSeriesやDataFrameの作成を行ったが、これが私にとってはとても面倒くさかった。
例えば、Seriesを作る際に、

i = "A", "B", "C", "D"
d = [1,2,3,4]
s = pd.Series(d, index = i)


ダブルコーテーションが多くて面倒だし、1,2,3,4と数字をいちいち入力するのも面倒くさい。
そこで改善策を考えた。

i = list("ABCD")
d = range(1,5)
s = pd.Series(d, index = i)


ましになった。
よかった、よかった。

次はmatplotlibを復習する。

このコースへのリンク
Python & Machine Learning for Financial Analysis



全般ランキング


この記事へのコメント
コメントを書く

お名前: 必須項目

メールアドレス:


ホームページアドレス:

コメント: 必須項目

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/10730051
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
検索
<< 2021年12月 >>
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
最新記事
タグクラウド
カテゴリーアーカイブ
月別アーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。
×

この広告は30日以上新しい記事の更新がないブログに表示されております。

Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: