検索
<< 2021年12月 >>
1 2 3 4
5 6 7 8 9 10 11
19 20 21 22 23 24 25
26 27 28 29 30 31
最新記事
タグクラウド
カテゴリーアーカイブ
月別アーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。

広告

posted by fanblog

2019年09月18日

【6日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析




進捗65%(+7%)

Logistic Regressionの学習を終えてDecision とRandomForestsのセクションに突入。

Logistic Regressionの学習ではPipeLineのところで躓いた。
PipleLineに渡すのリストを文字列と勘違いして、しばらく悩んでしまった。
後から考えてみるとエラーメッセージも正しく出ていたし、普通に考えて、関数を1つずつ実行するのだから、リストが文字列になる訳がないのだが。。。
何とかプロジェクト練習問題も終えることができた。

Decision とRandomForestsは、スラスラ進んでいる。
コーディングは特に問題ないが実行結果の評価方法の理解が若干怪しい。
いろいろ評価パラメータが出てくるので何で評価をしているのかを深く理解したい。

機械学習のアルゴリズムだが、

1、データ読み込み
2、データ準備
3、トレーニング
4、テスト
5、評価

の流れで進むので処理がほとんど同じようコーディングの流れになっているので覚えやすい。
普通に考えて、1,2,5はアルゴリズムによらず、だいたい一緒だし、強いて言うなら、入力データの文字列をインデックスに変換する処理が必要になるくらいだ。
また、機械学習の要の3,4も結局は関数に入力データを入れて、計算するだけなので、どれもこれも一緒になってしまうのだろう。

できれば、今週末には受講を完了したい。


このコースへのリンク
Spark and Python for Big Data with PySpark






全般ランキング

タグ: 機械学習
この記事へのコメント
コメントを書く

お名前: 必須項目

メールアドレス:


ホームページアドレス:

コメント: 必須項目

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/9212807
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
Build a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: