ニューヨーク拠点の株式投資ファンド

プロジェクト内容

顧客様：　NY拠点の投資ファンド. AUM 50 Billion USD （管理資産６兆円以上）

概要：　2019年に新設されたオルタナティブ・データ・チーム（金融レポート・データ以外のデータを分析して投資情報を読み出す）の開発チームリーダー兼アーキテクトとして参画し、データプラットフォームの設計・開発・実装を行いました。2022年末現在も同ポジションにて、より高度なデータ分析プロジェクト等に関わっております。

結果：　チーム発足後2か月で投資アナリスト達に有効な投資インサイトを与えるデータ分析環境の構築を達成しました。新しいデータベンダー、自社によるスクレイピングを数時間でデータパイプラインに乗せることが可能な継続的インテグレーションを実装し、2022年現在で250を超えるデータパイプラインを構築・運用しております。データ分析に関連したプロジェクトとして、機械学習を用いたデータの分類・KPI予測モデルの作成なども行っております。

サービス内容：　利用クラウドプラットフォームの選定から、コストパフォーマンスの良いサービスや実装方法の選定を行い、チームの社内での成功に貢献しました。

クラウドプラットフォームの評価・選定
利用サービス/技術の評価・選定
チームメンバーの採用活動
データプラットフォームの構築・実装・運用
データベンダーのデータ品質テスト
データベンダーのデータの自動取得パイプラインの構築
スクレイピングによる公開データの取得プラットフォーム
クラウドサービス全体のコスト管理とモニタリングアプリケーションの実装
機械学習モデルの構築と、モデルを用いたデータ変換処理
データをデータウェアハウスに自動ロードするパイプラインの構築
- データベンダーからのデータの自動ロード・アップデート処理
- パブリックデータのスクレイピング・データロード処理

実例

合計で100を超える（合計データサイズ　100TB以上）データベンダーからのデータ・自社スクレイプしたデータを決められた時間（毎時、毎日、毎週など）に取り込み、分析に活用しやすい形で処理し、データウェアハウス（BigQuery）にロードするデータパイプラインの構築・運用を、CloudComposer上で作成しました。新しいPipelineの追加・変更等も、CI/CDで容易に自動的に本番環境へリリースする設計になっており、新しいプロジェクトやベンダーのオンボーディングに対応できる設計になっております。

データパイプラインダッシュボード

データパイプラインの一例

使用技術

クラウドプラットフォーム – GCP (Google Cloud Platform)
- GKE (Google Kubernetes Engine)
- Cloud Composer2 (Airflow2)
- BigQuery
- Cloud Dataflow
- Artifact Registry
- Cloud Build (CI/CD) + GitHub
- Cloud Storage
- Cloud Firestore
- Compute Engine
- Cloud Functions
- Cloud Run
- Vertex AI
データウェアハウス
- BigQuery
- Snowflake
主な使用言語：
- Python
機械学習ライブラリ：
- Tensorflow/Keras
- Scikit-Learn
BI – ビジネスデータ分析ツール：
- Tableau