この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
広告
posted by fanblog
2019年09月17日
【5日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
Logistic Regressionの学習を進めている。
疲れ気味のため、進捗が少ない。
模擬プロジェクト練習問題に入る前の知識の確認中。
Logistic Regressionの学習中に気が付いた点を2点メモしておく。
1、DataFram.head()と head(1)を実行した結果が微妙に違うのに気が付いた。
・df.head() →Rowオブジェクト
・df.head(1) →Rowオブジェクト1個の配列
先頭データの内容を表示する際にforループする際にはそれぞれ
・df.head()の場合
・for i in df.head():print(i)
・df.head(1)の場合
・for i in df.head(1)[0]:print(i)
とする。
2、Pipelineをインポートする際に"pipeline"(全部小文字)が選択肢に出てくるが、
これは使わず"PipeLine"を使うこと。
×:from pyspark.ml import pipeline
〇:from pyspark.ml import Pipeline
10分くらい時間をロスしてしまった。
うーん、紛らわしい。
このコースへのリンク
Spark and Python for Big Data with PySpark
全般ランキング