進捗47%(+13%)
順調ではあるが苦労した。
知識の定着が十分でなかったため、DataFrameの章の最後の練習問題に非常に時間がかかった。
原因を考えるといろいろ思い当たることがある。
・進捗を優先したために理解が不十分
・英語講義を理解せずに聞き流していた
・コマンド自体は簡単なので使うときに調ればいいや、と思い覚えなかった
・多数のコマンドを短時間にあてもなく説明されるのでストーリー立てて思い出すのが難しい
・勉強するにあたり目的意識が低い(仕事に直結するわけではない)
結局、問題の半分くらいで自力で解くことは中断し、DataFrameの章の復習をして自分なりにまとめてみた。そして、練習問題をやり直したがそれでもちょこちょこ確認が必要になった。
自分で重要と思って覚えているところと実際に手を動かして解く際に引っかかる場所が違っている感じだ。
まだ自分の頭の中でpysparkの勘所と整理ができていないのだろう。
時間がたったら、練習問題をやり直すことにして、次の機械学習の章に突入した。
これから1つの講義が終わったら、自分なりに何を学んだかメモをするようにする。
(ただし、概要のみ。これをトリガーに詳細を思い出せるようなメモ程度)
●DataFrameの章で学んだことのメモ
・pysparkの初期化/修了
・データのロード
・read.csv, read.json
・オプション指定
・データの基本情報
・describe,printSchema
・データの表示
・show, head
・データタイプの確認、設定
・type
・データ操作
・列選択、表示
["列名"], Select(["列名"])
・列追加
withColumn
withColumnRenamed
・sqlコマンド使用
・createOrReplaceTempView("名前")
・spark.sql("コマンド")
・行選択、表示
・filter
・グループ化
・groupBy
・行の辞書変換
・asDict()
・計算
・max,min,count,mean,sum(列),selectと組み合わせて使う。
・agg({列:上の関数})
・関数
・準備
functions,
・関数
countDistinct,avg,stddev
alias
・数値フォーマット
・準備
・format_number
・ソート
・orderBy
・desc()
・日付処理
・関数
dayofmonth,hour,dayofyear,month,year,weekofyear,data_format
・データなしの処理
・カラムで、個数で、どれか、すべて
・na.drop(how=any|all,thresh=None,subset=None)
・データ補完
・na.fill()
・中央値で補完mean
このコースへのリンク
Spark and Python for Big Data with PySpark
全般ランキング
【このカテゴリーの最新記事】
- no image
- no image
- no image
- no image
- no image