Google Cloudではじめる実践データエンジニアリング入門を読んだ
何が書いてあったか覚えられないので、備忘録として各章に書いてあることやメモを短くまとめていく
1章
- データ基盤の歴史のようなものが語られている
DWHは単一のアプリケーションからの利用を想定するだけでなく、レポーティングや帳票アプリケーション、またはアドホックな分析に活用される
- 後の章の説明が書いてある
2章
- BigQueryのコンセプトとアーキテクチャ、クエリの使い方について書かれている
- BigQueryはインデックスを持たない。膨大なコンピュート環境を利用することで、データのフルスキャンを高速に実現している
- クエリ最適化の話が書いてある
3章
4章
- データレイクとは
- データレイクをGCP上で構築するメリットが書かれている
- オンプレミスからの移行について書かれている
5章
- ETL,ELTの説明
- 各サービス(BQ,Dataflow,Dataproc)でのETL処理の書き方が書いてある
- ETLサービスの使い分けについて書かれている
6章
- Cloud ComposerとCloud Data Fusionの説明
- Cloud Composerの本番環境での利用する際に考慮すると良い点が書かれている
- それぞれ比較と使い分けのポイントが書かれている
7章
- セキュリティ要件に対応する方法について書かれている
- IAMでのアクセス制御について書かれている
- 監査ログについて書かれている
8章
- BigQueryにデータを集約することで組織内でのデータ活用が進んでいく
- BigQuery DTSの説明
- データパイプラインをどう構築するか
9章
- BIツールに求められること
- 各BIツールの特徴などが書かれている
- 各BIツールをどういったユースケースに対して導入すれば良いかが書かれている
10章
- Pub/Subの説明
- Dataflowのストリーミングでの使い方
- 実際のデータを用いた一例が書かれている
11章
- BigQuery GISとBigQuery ML / AutoML Tablesの説明
- 地理情報の取り扱い方について
- 機械学習の話、BigQuery MLとAutoML Tablesの使い分けについて書かれている
感想
データ活用を進めるうえで重要なポイントは、利用したいデータがすぐに利用できること、分析者が気軽に分析を実施できること、また、分析に必要な機能が一通り揃っていることです。加えて、それらがシームレスに連携しているという点も重要です。
- データ基盤作りに使われるサービスを一通り学べた
- Pub/Subがいまいちわからないので使ってみる