Zattani

雑多に書いていきます

Google Cloudではじめる実践データエンジニアリング入門を読んだ

Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]

何が書いてあったか覚えられないので、備忘録として各章に書いてあることやメモを短くまとめていく

1章

  • データ基盤の歴史のようなものが語られている
  • DWHは単一のアプリケーションからの利用を想定するだけでなく、レポーティングや帳票アプリケーション、またはアドホックな分析に活用される

  • 後の章の説明が書いてある

2章

  • BigQueryのコンセプトとアーキテクチャ、クエリの使い方について書かれている
  • BigQueryはインデックスを持たない。膨大なコンピュート環境を利用することで、データのフルスキャンを高速に実現している
  • クエリ最適化の話が書いてある

3章

  • DWHの料金や設計の話が書かれている
  • パーティションクラスタ化の話
  • データマートの作成に関して、差分更新ではなく、洗い替えを行うことでパフォーマンスを最適化できる

4章

  • データレイクとは
  • データレイクをGCP上で構築するメリットが書かれている
  • オンプレミスからの移行について書かれている

5章

  • ETL,ELTの説明
  • 各サービス(BQ,Dataflow,Dataproc)でのETL処理の書き方が書いてある
  • ETLサービスの使い分けについて書かれている

6章

  • Cloud ComposerとCloud Data Fusionの説明
  • Cloud Composerの本番環境での利用する際に考慮すると良い点が書かれている
  • それぞれ比較と使い分けのポイントが書かれている

7章

  • セキュリティ要件に対応する方法について書かれている
  • IAMでのアクセス制御について書かれている
  • 監査ログについて書かれている

8章

  • BigQueryにデータを集約することで組織内でのデータ活用が進んでいく
  • BigQuery DTSの説明
  • データパイプラインをどう構築するか

9章

  • BIツールに求められること
  • 各BIツールの特徴などが書かれている
  • 各BIツールをどういったユースケースに対して導入すれば良いかが書かれている

10章

  • Pub/Subの説明
  • Dataflowのストリーミングでの使い方
  • 実際のデータを用いた一例が書かれている

11章

  • BigQuery GISとBigQuery ML / AutoML Tablesの説明
  • 地理情報の取り扱い方について
  • 機械学習の話、BigQuery MLとAutoML Tablesの使い分けについて書かれている

感想

  • データ活用を進めるうえで重要なポイントは、利用したいデータがすぐに利用できること、分析者が気軽に分析を実施できること、また、分析に必要な機能が一通り揃っていることです。加えて、それらがシームレスに連携しているという点も重要です。

  • データ基盤作りに使われるサービスを一通り学べた
  • Pub/Subがいまいちわからないので使ってみる