この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
タグ / SPARK
記事
【まとめ】英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/23 23:58]
英語版のUdemy講座、"Spark and Python for Big Data with PySpark"の受講を完了したので最初に立てた目標の達成具合、自己評価や、コースをやり終えての感想をまとめる。
目次1、受講前のゴールイメージとスケジュールの確認
2、講義に関して
3、残念なポイント
3、次回に受講に生かしたいこと。教訓とか
受講前のゴールイメージとスケジュールの確認
■受講前のゴールイメージとスケジュールの確認
・環境設定が一通り..
【8日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/20 23:59]
進捗81%(+11%)
K-means Clusteringのプロジェクト演習まで来た。
いつもの通り、サマリを作っておき、ゼロから自分でコードを再生できるところまで練習した状態で状態でプロジェクト演習を行う。
サマリ:
・データの読み込み
・KMeans宣言
・入力データ作成
・スケール適用
・入力データをスケール結果に置換
・KMeans適用
・wssse
・クラスタリングのセンター
・分類確認
プロジェクト演習は..
【5日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/17 23:59]
進捗58%(+3%)
Logistic Regressionの学習を進めている。
疲れ気味のため、進捗が少ない。
模擬プロジェクト練習問題に入る前の知識の確認中。
Logistic Regressionの学習中に気が付いた点を2点メモしておく。
1、DataFram.head()と head(1)を実行した結果が微妙に違うのに気が付いた。
・df.head() →Rowオブジェクト
・df.head(1) →Rowオブジェクト1個の配列
..
【4日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/16 23:33]
進捗55%(+8%)
まあまあ順調。
達成感があり、楽しい。
LinearRegressionの学習。
一通り理論の説明とコードの説明を受講した後、自分で0から機械学習のコードが再現できるように時間をかけて練習を重ねた。
再現をする際にpyspark.mlとpyspark.mllibの2つが出てきてmllibを選択するとRDD用のAPIのため、現在勉強しているDataFrameの場合はその後必要なAPIが出てこなくなり、うまくコード化がで..
【3日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/15 23:37]
進捗47%(+13%)
順調ではあるが苦労した。
知識の定着が十分でなかったため、DataFrameの章の最後の練習問題に非常に時間がかかった。
原因を考えるといろいろ思い当たることがある。
・進捗を優先したために理解が不十分
・英語講義を理解せずに聞き流していた
・コマンド自体は簡単なので使うときに調ればいいや、と思い覚えなかった
・多数のコマンドを短時間にあてもなく説明されるのでストーリー立てて思い出すのが難しい
・勉強するにあたり..
【2日目成果] 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/14 22:14]
進捗34%(+7%)
思った通りに進められてない。+10%くらいは進みたいのだが...
講座自体は難しくないのだが、いくつか問題?課題?に遭遇し、解決をしながら進めている。
まず、VirtualBoxをインストールした際に画面の解像度が低いままでスタートしていた。いい加減、受講しにくいため、調査、設定を行い、Guest Additions CDのインストールを行い、解像度を上げることができ、事なきを得た。
次に、sparkが思うように動作し..
英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
[2019/09/12 21:26]
はじめに
ビックデータの解析や活用が盛んな昨今、データ処理のスピードも求められるようになってきている。
そんな時に有望なのが今回勉強するApache Sparkである。Apache Sparkは Google, Facebook, Netflix, Airbnb, Amazon, NASAでビックデータの課題を解決に使用されており、 Hadoop MapReduceの約100倍で処理を行うことができる。
解析対象のデータが爆発的に増大していく中、最も注目..
≪前へ 次へ≫
Auto Scaling
C#
DataFrame
deep learning
EBS
EC2
ELB
EXPRESS
Git
heatmap
JavaScript
jest
keras
LinQ
Node.js
numpy
opencv
pandas
Python
React.JS
Redis
S3
seaborn
Series
sklearn
SPARK
SQL
SQL SERVER
TDD
tensorflow
Thread
Unity
VirtualBox
VPC
WPF
YOLO
ビックデータ解析
ブロックチェーン
仮想通貨
機械学習
画像処理