プロジェクト内容

顧客様: NY拠点の投資ファンド. AUM 50 Billion USD (管理資産  6兆円以上)

概要: 2019年に新設されたオルタナティブ・データ・チーム(金融レポート・データ以外のデータを分析して投資情報を読み出す)の開発チームリーダー兼アーキテクトとして参画し、データプラットフォームの設計・開発・実装を行いました。2022年末現在も同ポジションにて、より高度なデータ分析プロジェクト等に関わっております。

結果: チーム発足後2か月で投資アナリスト達に有効な投資インサイトを与えるデータ分析環境の構築を達成しました。新しいデータベンダー、自社によるスクレイピングを数時間でデータパイプラインに乗せることが可能な継続的インテグレーションを実装し、2022年現在で250を超えるデータパイプラインを構築・運用しております。データ分析に関連したプロジェクトとして、機械学習を用いたデータの分類・KPI予測モデルの作成なども行っております。

サービス内容: 利用クラウドプラットフォームの選定から、コストパフォーマンスの良いサービスや実装方法の選定を行い、チームの社内での成功に貢献しました。

  • クラウドプラットフォームの評価・選定
  • 利用サービス/技術の評価・選定
  • チームメンバーの採用活動
  • データプラットフォームの構築・実装・運用
  • データベンダーのデータ品質テスト
  • データベンダーのデータの自動取得パイプラインの構築
  • スクレイピングによる公開データの取得プラットフォーム
  • クラウドサービス全体のコスト管理とモニタリングアプリケーションの実装
  • 機械学習モデルの構築と、モデルを用いたデータ変換処理
  • データをデータウェアハウスに自動ロードするパイプラインの構築
    • データベンダーからのデータの自動ロード・アップデート処理
    • パブリックデータのスクレイピング・データロード処理

実例

合計で100を超える(合計データサイズ 100TB以上)データベンダーからのデータ・自社スクレイプしたデータを決められた時間(毎時、毎日、毎週など)に取り込み、分析に活用しやすい形で処理し、データウェアハウス(BigQuery)にロードするデータパイプラインの構築・運用を、CloudComposer上で作成しました。新しいPipelineの追加・変更等も、CI/CDで容易に自動的に本番環境へリリースする設計になっており、新しいプロジェクトやベンダーのオンボーディングに対応できる設計になっております。

データパイプラインダッシュボード

 

データパイプラインの一例

 

使用技術

  • クラウドプラットフォーム – GCP (Google Cloud Platform)
    • GKE  (Google Kubernetes Engine)
    • Cloud Composer2 (Airflow2)
    • BigQuery
    • Cloud Dataflow
    • Artifact Registry
    • Cloud Build (CI/CD) + GitHub
    • Cloud Storage
    • Cloud Firestore
    • Compute Engine
    • Cloud Functions
    • Cloud Run
    • Vertex AI
  • データウェアハウス
    • BigQuery
    • Snowflake
  • 主な使用言語:
    • Python
  • 機械学習ライブラリ:
    • Tensorflow/Keras
    • Scikit-Learn
  • BI – ビジネスデータ分析ツール:
    • Tableau