Udemyで技術習得！気の向くままにのんびりと

2019年09月19日

【7日目成果】英語版Udemy講座で学ぶ！SparkとpythonでBig Data解析

Decision Tree&RandomForestsのプロジェクト演習完了。
できたはできたが、模範解答とは違ったが。そろそろ、習ったことだけでなく、
それをきっかけに、ライブラリの詳細をドキュメントで見ていく必要があるのかなあ。
理論の知識も充実していく必要がありそう。

K-means Clusteringのセクションへ入った。
K-means Clustring(K平均法）はクラスタリングのアルゴリズムだ。与えられたＫ個にクラスタへ分類を行う。
処理の流れは

１、featureの取り出し
２、シード設定
３、クラスタリング実行
４、コスト計算、中心計算

といった流れだ。
教師なしのアルゴリズムであるため、クラスタリング実行の際は、元データを学習データ、テストデータへ振り分ける処理は必要がない。
この部分が今まで習った機械学習と大きく異なる点だ。
また、距離の概念が入るため、扱うのは数値になるので、StringIndexerとかは必要なさそうだ。
その分、コードもシンプルになるので、簡単に感じる。

このコースへのリンク
Spark and Python for Big Data with PySpark