ニューヨーク拠点の
株式投資ファンド
S社様
AUM 50 Billion USD
(管理資産 7兆円以上)
データプラットフォームの構築
2019年にS社様内に新設されたオルタナティブ・データ・チームに、開発チームリーダー兼アーキテクトとして参画。投資アナリスト達に有効な投資インサイトを与えるデータ分析環境を2ヶ月で構築しました。
新規データベンダー、自社によるスクレイピングを数時間でデータパイプラインに乗せることが可能な継続的インテグレーションを実装し、400を超えるデータパイプラインを構築・運用しております。(2024年現在)
LLMの活用
データ分析に関連したプロジェクトとして、機械学習を用いたデータの分類・KPI予測モデルの作成なども多く行っております。2023年に社内のアナリストレーポートや企業の公開データ(10K/10Q等)を処理したRAGサービスを設計・実装し、ポートフォリオマネジャーや株式アナリストが銘柄分析に日々活用しています。
クラウドプラットフォームの評価・選定
利用サービス/技術の評価・選定
チームメンバーの採用活動
データプラットフォームの構築・実装・運用
データベンダーのデータ品質テスト
データベンダーのデータの自動取得パイプラインの構築
スクレイピングによる公開データの取得プラットフォーム
クラウドサービス全体のコスト管理とモニタリングアプリケーションの実装
機械学習モデルの構築と、モデルを用いたデータ変換処理
社内文書や公開データを処理したRAGシステムの設計・実装
実施サービス内容
実例
100を超えるデータベンダーからのデータ(合計データサイズ100TB以上)・自社スクレイプしたデータを決められた時間(毎時/毎日/毎週など)に取り込み、分析に活用しやすい形で処理し、データウェアハウス(BigQuery)にロードするデータパイプラインの構築・運用を、CloudComposer上で作成しました。
新しいPipelineの追加・変更等も、CI/CDで容易に自動的に本番環境へリリースする設計になっており、新しいプロジェクトやベンダーのオンボーディングに対応できる設計になっています。
データパイプラインダッシュボード例
データパイプラインの一例
使用技術
クラウドプラットフォーム – GCP (Google Cloud Platform)
GKE (Google Kubernetes Engine)
Cloud Composer2 (Airflow2)
BigQuery
Cloud Dataflow
Artifact Registry
Cloud Build (CI/CD) + GitHub
Cloud Storage
Cloud Firestore
Compute Engine
Cloud Functions
Cloud Run
Vertex AI
主な使用言語:
Python
利用しているその他サービス:
OpenAI Embedding models
OpenAI LLM models
Pinecone Serverless
Snowflake
dbt
great expectations
Tensorflow/Keras
Scikit-Learn
Tableau