Zattani

雑多に書いていきます

スケーラブルデータサイエンスを読んだ

スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform

書いてあった内容を忘れるので各章ごとに簡単にメモ

1章

  • データ分析の主要な目的は正確な意思決定をシステマティックに行うことをデータドリブンな手法で支援すること

  • クエリ、レポート、グラフは最終目標ではなく、最も重要なのは、ビジネス課題を解決するために、統計的に有効なデータ分析を実行する能力であり、適切、かつ、検証可能な意思決定にこそ価値があるのです。

  • データエンジニアの作業はクラウドサービスの出現により容易になった。

2章

  • データをパブリッククラウド上に保存するメリット
  • 定期的にデータを保存する方法。App Engineを利用している
  • 強整合性と結果整合性の違いについて書かれている

3章

  • ダッシュボードの目的は、新たなモデルを開発するための知見を得ることではありません。既存のモデルの内容を説明することです

  • エンドユーザーの知見をできるだけ早期に取り込み、モデルに反映する必要性を説明
  • CloudSQLとデータポータルを使った可視化の取り組みが書かれている

4章

  • ストリーミングでのデータ処理について書かれている
  • Pub/Subの使い方
  • Dataflowのストリーミング処理での使い方

5章

  • 探索的データ分析は、データエンジニア自身がデータに対する知見を深め、より洗練されたモデルを構築することが目的

  • Cloud Datalabを用いた探索的データ分析について書かれている
  • BigQueryを用いた探索的データ分析について書かれている

6章

  • Cloud Dataprocを使ったベイズモデルの作成について
  • Cloud DAtaprocのベストプラクティスが書かれている
  • Pigの使い方

7章

  • ロジスティック回帰の手法について
  • Apache Sparkを用いた機械学習について
  • 特徴量エンジニアリングについて

8章

  • DataflowをJavaで使う方法について
  • パイプラインの開発手順について
  • パイプラインのパフォーマンスチューニングの仕方について

9章

  • TensorFlowを用いて機械学習モデルを作る
  • ハイパーパラメータ・チューニングのやり方について
  • 完成したモデルのデプロイ方法

10章

  • リアルタイム機械学習について
  • Cloud Bigtableを使う理由などについて
  • モデルの性能評価の仕方について

感想

  • 難しい(特に後半)
  • データの収集方法から書かれているので別プロジェクトでも参考にできそうだなと感じた。
  • 後半は理解ができていないところの方が多いので再度読む機会をもうけたい

Google Cloudではじめる実践データエンジニアリング入門を読んだ

Google Cloudではじめる実践データエンジニアリング入門[業務で使えるデータ基盤構築]

何が書いてあったか覚えられないので、備忘録として各章に書いてあることやメモを短くまとめていく

1章

  • データ基盤の歴史のようなものが語られている
  • DWHは単一のアプリケーションからの利用を想定するだけでなく、レポーティングや帳票アプリケーション、またはアドホックな分析に活用される

  • 後の章の説明が書いてある

2章

  • BigQueryのコンセプトとアーキテクチャ、クエリの使い方について書かれている
  • BigQueryはインデックスを持たない。膨大なコンピュート環境を利用することで、データのフルスキャンを高速に実現している
  • クエリ最適化の話が書いてある

3章

  • DWHの料金や設計の話が書かれている
  • パーティションクラスタ化の話
  • データマートの作成に関して、差分更新ではなく、洗い替えを行うことでパフォーマンスを最適化できる

4章

  • データレイクとは
  • データレイクをGCP上で構築するメリットが書かれている
  • オンプレミスからの移行について書かれている

5章

  • ETL,ELTの説明
  • 各サービス(BQ,Dataflow,Dataproc)でのETL処理の書き方が書いてある
  • ETLサービスの使い分けについて書かれている

6章

  • Cloud ComposerとCloud Data Fusionの説明
  • Cloud Composerの本番環境での利用する際に考慮すると良い点が書かれている
  • それぞれ比較と使い分けのポイントが書かれている

7章

  • セキュリティ要件に対応する方法について書かれている
  • IAMでのアクセス制御について書かれている
  • 監査ログについて書かれている

8章

  • BigQueryにデータを集約することで組織内でのデータ活用が進んでいく
  • BigQuery DTSの説明
  • データパイプラインをどう構築するか

9章

  • BIツールに求められること
  • 各BIツールの特徴などが書かれている
  • 各BIツールをどういったユースケースに対して導入すれば良いかが書かれている

10章

  • Pub/Subの説明
  • Dataflowのストリーミングでの使い方
  • 実際のデータを用いた一例が書かれている

11章

  • BigQuery GISとBigQuery ML / AutoML Tablesの説明
  • 地理情報の取り扱い方について
  • 機械学習の話、BigQuery MLとAutoML Tablesの使い分けについて書かれている

感想

  • データ活用を進めるうえで重要なポイントは、利用したいデータがすぐに利用できること、分析者が気軽に分析を実施できること、また、分析に必要な機能が一通り揃っていることです。加えて、それらがシームレスに連携しているという点も重要です。

  • データ基盤作りに使われるサービスを一通り学べた
  • Pub/Subがいまいちわからないので使ってみる