スケーラブルデータサイエンスを読んだ
書いてあった内容を忘れるので各章ごとに簡単にメモ
1章
データ分析の主要な目的は正確な意思決定をシステマティックに行うことをデータドリブンな手法で支援すること
クエリ、レポート、グラフは最終目標ではなく、最も重要なのは、ビジネス課題を解決するために、統計的に有効なデータ分析を実行する能力であり、適切、かつ、検証可能な意思決定にこそ価値があるのです。
- データエンジニアの作業はクラウドサービスの出現により容易になった。
2章
- データをパブリッククラウド上に保存するメリット
- 定期的にデータを保存する方法。App Engineを利用している
- 強整合性と結果整合性の違いについて書かれている
3章
ダッシュボードの目的は、新たなモデルを開発するための知見を得ることではありません。既存のモデルの内容を説明することです
- エンドユーザーの知見をできるだけ早期に取り込み、モデルに反映する必要性を説明
- CloudSQLとデータポータルを使った可視化の取り組みが書かれている
4章
- ストリーミングでのデータ処理について書かれている
- Pub/Subの使い方
- Dataflowのストリーミング処理での使い方
5章
探索的データ分析は、データエンジニア自身がデータに対する知見を深め、より洗練されたモデルを構築することが目的
- Cloud Datalabを用いた探索的データ分析について書かれている
- BigQueryを用いた探索的データ分析について書かれている
6章
7章
8章
- DataflowをJavaで使う方法について
- パイプラインの開発手順について
- パイプラインのパフォーマンスチューニングの仕方について
9章
- TensorFlowを用いて機械学習モデルを作る
- ハイパーパラメータ・チューニングのやり方について
- 完成したモデルのデプロイ方法
10章
感想
- 難しい(特に後半)
- データの収集方法から書かれているので別プロジェクトでも参考にできそうだなと感じた。
- 後半は理解ができていないところの方が多いので再度読む機会をもうけたい