ニューヨーク拠点の
株式投資ファンド
S社様

the skyscrapers of Manhattan New York City

AUM 50 Billion USD
(管理資産  7兆円以上)

データプラットフォームの構築

2019年にS社様内に新設されたオルタナティブ・データ・チームに、開発チームリーダー兼アーキテクトとして参画。投資アナリスト達に有効な投資インサイトを与えるデータ分析環境を2ヶ月で構築しました。

新規データベンダー、自社によるスクレイピングを数時間でデータパイプラインに乗せることが可能な継続的インテグレーションを実装し、400を超えるデータパイプラインを構築・運用しております。(2024年現在)

LLMの活用

データ分析に関連したプロジェクトとして、機械学習を用いたデータの分類・KPI予測モデルの作成なども多く行っております。2023年に社内のアナリストレーポートや企業の公開データ(10K/10Q等)を処理したRAGサービスを設計・実装し、ポートフォリオマネジャーや株式アナリストが銘柄分析に日々活用しています。

  • クラウドプラットフォームの評価・選定

  • 利用サービス/技術の評価・選定

  • チームメンバーの採用活動

  • データプラットフォームの構築・実装・運用

  • データベンダーのデータ品質テスト

  • データベンダーのデータの自動取得パイプラインの構築

  • スクレイピングによる公開データの取得プラットフォーム

  • クラウドサービス全体のコスト管理とモニタリングアプリケーションの実装

  • 機械学習モデルの構築と、モデルを用いたデータ変換処理

  • 社内文書や公開データを処理したRAGシステムの設計・実装

実施サービス内容

実例

100を超えるデータベンダーからのデータ(合計データサイズ100TB以上)・自社スクレイプしたデータを決められた時間(毎時/毎日/毎週など)に取り込み、分析に活用しやすい形で処理し、データウェアハウス(BigQuery)にロードするデータパイプラインの構築・運用を、CloudComposer上で作成しました。

新しいPipelineの追加・変更等も、CI/CDで容易に自動的に本番環境へリリースする設計になっており、新しいプロジェクトやベンダーのオンボーディングに対応できる設計になっています。

データパイプラインダッシュボード例

データパイプラインの一例

使用技術

  • クラウドプラットフォーム – GCP (Google Cloud Platform)

    • GKE  (Google Kubernetes Engine)

    • Cloud Composer2 (Airflow2)

    • BigQuery

    • Cloud Dataflow

    • Artifact Registry

    • Cloud Build (CI/CD) + GitHub

    • Cloud Storage

    • Cloud Firestore

    • Compute Engine

    • Cloud Functions

    • Cloud Run

    • Vertex AI

  • 主な使用言語:

    • Python

  • 利用しているその他サービス:

    • OpenAI Embedding models

    • OpenAI LLM models

    • Pinecone Serverless

    • Snowflake

    • dbt

    • great expectations

    • Tensorflow/Keras

    • Scikit-Learn

    • Tableau