世界有数の外資系投資ファンド(管理資産3兆円以上)においてデータサイエンスチームの初期メンバーとして参画し、投資アイデア発掘を助けるAlternativeデータの処理・管理を行うデータプラットフォームの構築を手がけました。プロジェクト内の具体的な個々のタスクとしては以下のようなものがあります。

  • データベンダーのデータ品質テスト
  • データベンダーのデータの自動取得パイプラインの構築
  • スクレイピングによる公開データの取得プラットフォーム
  • 機械学習モデルの構築と、モデルを用いたデータ変換処理
  • データをデータウェアハウスに自動ロードするパイプラインの構築
  • クラウドデータウェアハウスの選定など

使用技術

  • クラウドプラットフォーム – AWS
    • EC2
    • S3
    • API-Gatway
    • Lambda
    • Redshift
    • Kinesis
    • Firehouse
    • SNS
    • SQS
    • SageMaker
  • データウェアハウス
    • Snowflake
    • Redshift
  • 主な使用言語:
    • C#
    • Python
    • React
  • 機械学習ライブラリ:
    • Tensorflow/Keras
    • Scikit-Learn
  • BI – ビジネスデータ分析ツール:
    • Tableau