Zattani

雑多に書いていきます

スケーラブルデータサイエンスを読んだ

書いてあった内容を忘れるので各章ごとに簡単にメモ

1章

データ分析の主要な目的は正確な意思決定をシステマティックに行うことをデータドリブンな手法で支援すること
クエリ、レポート、グラフは最終目標ではなく、最も重要なのは、ビジネス課題を解決するために、統計的に有効なデータ分析を実行する能力であり、適切、かつ、検証可能な意思決定にこそ価値があるのです。
データエンジニアの作業はクラウドサービスの出現により容易になった。

2章

データをパブリッククラウド上に保存するメリット
定期的にデータを保存する方法。App Engineを利用している
強整合性と結果整合性の違いについて書かれている

3章

ダッシュボードの目的は、新たなモデルを開発するための知見を得ることではありません。既存のモデルの内容を説明することです
エンドユーザーの知見をできるだけ早期に取り込み、モデルに反映する必要性を説明
CloudSQLとデータポータルを使った可視化の取り組みが書かれている

4章

ストリーミングでのデータ処理について書かれている
Pub/Subの使い方
Dataflowのストリーミング処理での使い方

5章

探索的データ分析は、データエンジニア自身がデータに対する知見を深め、より洗練されたモデルを構築することが目的
Cloud Datalabを用いた探索的データ分析について書かれている
BigQueryを用いた探索的データ分析について書かれている

6章

Cloud Dataprocを使ったベイズモデルの作成について
Cloud DAtaprocのベストプラクティスが書かれている
Pigの使い方

7章

ロジスティック回帰の手法について
Apache Sparkを用いた機械学習について
特徴量エンジニアリングについて

8章

DataflowをJavaで使う方法について
パイプラインの開発手順について
パイプラインのパフォーマンスチューニングの仕方について

9章

TensorFlowを用いて機械学習モデルを作る
ハイパーパラメータ・チューニングのやり方について
完成したモデルのデプロイ方法

10章

リアルタイム機械学習について
Cloud Bigtableを使う理由などについて
モデルの性能評価の仕方について

感想

難しい(特に後半)
データの収集方法から書かれているので別プロジェクトでも参考にできそうだなと感じた。
後半は理解ができていないところの方が多いので再度読む機会をもうけたい

Google Cloudではじめる実践データエンジニアリング入門を読んだ

何が書いてあったか覚えられないので、備忘録として各章に書いてあることやメモを短くまとめていく

1章

データ基盤の歴史のようなものが語られている
DWHは単一のアプリケーションからの利用を想定するだけでなく、レポーティングや帳票アプリケーション、またはアドホックな分析に活用される
後の章の説明が書いてある

2章

BigQueryのコンセプトとアーキテクチャ、クエリの使い方について書かれている
BigQueryはインデックスを持たない。膨大なコンピュート環境を利用することで、データのフルスキャンを高速に実現している
クエリ最適化の話が書いてある

3章

DWHの料金や設計の話が書かれている
パーティションとクラスタ化の話
データマートの作成に関して、差分更新ではなく、洗い替えを行うことでパフォーマンスを最適化できる

4章

データレイクとは
データレイクをGCP上で構築するメリットが書かれている
オンプレミスからの移行について書かれている

5章

ETL,ELTの説明
各サービス(BQ,Dataflow,Dataproc)でのETL処理の書き方が書いてある
ETLサービスの使い分けについて書かれている

6章

Cloud ComposerとCloud Data Fusionの説明
Cloud Composerの本番環境での利用する際に考慮すると良い点が書かれている
それぞれ比較と使い分けのポイントが書かれている

7章

セキュリティ要件に対応する方法について書かれている
IAMでのアクセス制御について書かれている
監査ログについて書かれている

8章

BigQueryにデータを集約することで組織内でのデータ活用が進んでいく
BigQuery DTSの説明
データパイプラインをどう構築するか

9章

BIツールに求められること
各BIツールの特徴などが書かれている
各BIツールをどういったユースケースに対して導入すれば良いかが書かれている

10章

Pub/Subの説明
Dataflowのストリーミングでの使い方
実際のデータを用いた一例が書かれている

11章

BigQuery GISとBigQuery ML / AutoML Tablesの説明
地理情報の取り扱い方について
機械学習の話、BigQuery MLとAutoML Tablesの使い分けについて書かれている

感想

データ活用を進めるうえで重要なポイントは、利用したいデータがすぐに利用できること、分析者が気軽に分析を実施できること、また、分析に必要な機能が一通り揃っていることです。加えて、それらがシームレスに連携しているという点も重要です。
データ基盤作りに使われるサービスを一通り学べた
Pub/Subがいまいちわからないので使ってみる