Zattani

雑多に書いていきます

スケーラブルデータサイエンスを読んだ

書いてあった内容を忘れるので各章ごとに簡単にメモ

1章

データ分析の主要な目的は正確な意思決定をシステマティックに行うことをデータドリブンな手法で支援すること
クエリ、レポート、グラフは最終目標ではなく、最も重要なのは、ビジネス課題を解決するために、統計的に有効なデータ分析を実行する能力であり、適切、かつ、検証可能な意思決定にこそ価値があるのです。
データエンジニアの作業はクラウドサービスの出現により容易になった。

2章

データをパブリッククラウド上に保存するメリット
定期的にデータを保存する方法。App Engineを利用している
強整合性と結果整合性の違いについて書かれている

3章

ダッシュボードの目的は、新たなモデルを開発するための知見を得ることではありません。既存のモデルの内容を説明することです
エンドユーザーの知見をできるだけ早期に取り込み、モデルに反映する必要性を説明
CloudSQLとデータポータルを使った可視化の取り組みが書かれている

4章

ストリーミングでのデータ処理について書かれている
Pub/Subの使い方
Dataflowのストリーミング処理での使い方

5章

探索的データ分析は、データエンジニア自身がデータに対する知見を深め、より洗練されたモデルを構築することが目的
Cloud Datalabを用いた探索的データ分析について書かれている
BigQueryを用いた探索的データ分析について書かれている

6章

Cloud Dataprocを使ったベイズモデルの作成について
Cloud DAtaprocのベストプラクティスが書かれている
Pigの使い方

7章

ロジスティック回帰の手法について
Apache Sparkを用いた機械学習について
特徴量エンジニアリングについて

8章

DataflowをJavaで使う方法について
パイプラインの開発手順について
パイプラインのパフォーマンスチューニングの仕方について

9章

TensorFlowを用いて機械学習モデルを作る
ハイパーパラメータ・チューニングのやり方について
完成したモデルのデプロイ方法

10章

リアルタイム機械学習について
Cloud Bigtableを使う理由などについて
モデルの性能評価の仕方について

感想

難しい(特に後半)
データの収集方法から書かれているので別プロジェクトでも参考にできそうだなと感じた。
後半は理解ができていないところの方が多いので再度読む機会をもうけたい