アフィリエイト広告を利用しています

広告

この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
posted by fanblog

2019年09月19日

【7日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析






Decision Tree&RandomForestsのプロジェクト演習完了。
できたはできたが、模範解答とは違ったが。そろそろ、習ったことだけでなく、
それをきっかけに、ライブラリの詳細をドキュメントで見ていく必要があるのかなあ。
理論の知識も充実していく必要がありそう。

K-means Clusteringのセクションへ入った。
K-means Clustring(K平均法)はクラスタリングのアルゴリズムだ。与えられたK個にクラスタへ分類を行う。
処理の流れは

1、featureの取り出し
2、シード設定
3、クラスタリング実行
4、コスト計算、中心計算

といった流れだ。
教師なしのアルゴリズムであるため、クラスタリング実行の際は、元データを学習データ、テストデータへ振り分ける処理は必要がない。
この部分が今まで習った機械学習と大きく異なる点だ。
また、距離の概念が入るため、扱うのは数値になるので、StringIndexerとかは必要なさそうだ。
その分、コードもシンプルになるので、簡単に感じる。



このコースへのリンク
Spark and Python for Big Data with PySpark






全般ランキング

検索
<< 2019年09月 >>
1
2 3 4 5 6 7
8
9 10 11 12 13 14
15
16 17 18 19 20 21
22
23 24 25 26 27 28
29
30
最新記事
タグクラウド
カテゴリーアーカイブ
月別アーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。
×

この広告は30日以上新しい記事の更新がないブログに表示されております。

Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: