【LangChain Interrupt参加レポート】JPMorgan Chaseが語る、投資リサーチAI「Ask D.A.V.I.D.」- マルチエージェントシステム構築と3つの教訓

2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、金融業界におけるAIエージェント活用の先進事例として、JPMorgan ChaseのDavid Odomirok氏とZheng Xue氏が登壇し、投資リサーチのためのマルチエージェントシステム「Ask D.A.V.I.D.」の構築について発表しました。

本記事では、その詳細なアーキテクチャと開発から得られた貴重な教訓についてお届けします。

投資リサーチの課題と「Ask D.A.V.I.D.」の登場

セッションの冒頭、JPMorgan Private BankのDavid Odomirok氏は、投資リサーチチームが直面する課題について語りました。チームは数千にも及ぶ投資商品と長年のデータを扱っており、顧客からの問い合わせに対して手作業でデータベースや資料を調査し、回答をまとめるプロセスは非常に時間と手間がかかるものでした。この手作業のプロセスはスケーラビリティを制限し、深い洞察の提供を困難にしていました。

この課題を解決するために開発されたのが、AIパワードソリューション「Ask D.A.V.I.D.」です。David Odomirok氏はその目的を次のように述べました。

「今日、皆さんが何かご質問があれば、私、Davidのもとへ来ていただければ、私がお答えします。しかし明日からは、『Ask D.A.V.I.D.』に直接尋ねることができるようになります。Ask D.A.V.I.D.は、投資に関する質問への対応方法を革新するために設計された、私たちのAI活用ソリューションです。これを通じて、吟味された回答、深い洞察、そして詳細な分析を、皆さんが質問するのとほぼ同時に提供することを目指しています。」 (Today, when you have a question, you come to me, come to David, and David will give you an answer. But tomorrow, you'll be able to go ask David. Our AI power solution designed to transform the way we answer investment questions with ask David. We're aiming to provide curated answers, insights and analytics delivered to you as quickly as you can ask a question.)

重要なのは、このツールが人間の仕事を奪うのではなく、より効率的にするためのものであるという点です。David Odomirok氏は、「この取り組みの重要性は非常に高く、数十億ドルもの資産が関わっています。私たちは、関係するすべての方々の期待に応えるだけでなく、それを上回るツールを構築することに全力を注いでいます。」(The stakes here are high. Billions of dollars of assets are at risk, and we're committed to building a tool that not only meets but also exceeds the expectations of all of our stakeholders.) と述べ、その責任の大きさを強調しました。

「Ask D.A.V.I.D.」とは何か?ドメイン特化型QAエージェントの全貌

続いて、同チームのZheng Xue氏が「Ask D.A.V.I.D.」の技術的な詳細について解説しました。Ask D.A.V.I.D.はドメイン特化型のQA(Question Answering)エージェントであり、その名称は Data(データ)、Analytics(分析)、Visualization(視覚化)、Insights(洞察)、Decision making system(意思決定システム) の頭文字から取られています。

このシステムが扱うデータは多岐にわたります。

  • 構造化データ: 数十年にわたる本番システムのバックボーンとなるデータ。
  • 非構造化データ: メール、議事録、プレゼンテーション、さらには増加するビデオやオーディオ録画など。LLMの進歩がこれらの活用に大きな機会をもたらしています。
  • プロプライエタリモデルと分析: 意思決定を支援するための独自のモデルや分析機能。

Zheng Xue氏は、Ask D.A.V.I.D.のビジョンを「ファイナンシャルアドバイザーがクライアントミーティング中に、複雑な質問(例えば『なぜこのファンドは解約されるのか?』)に対して、従来であれば専門チームに問い合わせて手動で資料を作成していたような情報を、リアルタイムで入手し意思決定を可能にすること」だと説明しました。

マルチエージェントアーキテクチャとエンドツーエンドワークフロー

Ask D.A.V.I.D.は、スーパーバイザーエージェントをオーケストレーターとするマルチエージェントシステムとして構築されています。スーパーバイザーエージェントはユーザーの意図を理解し、タスクを適切な専門エージェントに委任します。短期・長期記憶へのアクセスや、必要に応じたHuman-in-the-Loopも行います。

専門エージェントとしては、以下のものが挙げられました。

  • 構造化データエージェント: 自然言語をSQLクエリやAPIコールに変換し、LLMでデータを要約。
  • 非構造化データエージェント (RAG): 前処理・ベクトル化された非構造化データからRAG (Retrieval Augmented Generation) を用いて情報を抽出。
  • 分析エージェント: プロプライエタリなモデルやAPI(ReActエージェントやテキストtoコード生成を利用)を活用して分析を実行。

エンドツーエンドのワークフローは、まずプランニングノードでユーザーの質問を分析します。一般的な質問(例:「ゴールドへの投資方法」)と特定のファンドに関する質問では、処理フローが分岐します。各フローにはスーパーバイザーエージェントと専門エージェントチームが配置され、回答を生成。その後、ユーザーの役割に応じて回答をパーソナライズするノード、LLMジャッジによるリフレクションチェック(不適切なら再試行)を行うノードを経て、最後に会話の要約、メモリ更新、最終回答の返却が行われます。

複雑な問い合わせにいかに対応するか

Zheng Xue氏は、「なぜこのファンドは解約されたのですか?」という具体的な質問に対して、Ask D.A.V.I.D.がどのように対応するかをデモンストレーションしました。 エージェントは「ファンドはパフォーマンスの問題により解約されました」と回答し、詳細情報への参照リンクを提供します。

舞台裏では、プランニングノードがこの質問を特定のファンドに関するものと判断し、専門フローに送ります。スーパーバイザーエージェントがファンド情報を抽出し、ドキュメント検索エージェント(RAGエージェントの一種)に処理を依頼。MongoDBから関連データを取得後、パーソナライゼーションノードがユーザーの役割(例:デューデリジェンス専門家かアドバイザーか)に応じて回答の粒度を調整し、リフレクションノードで内容を検証、最後に要約して回答を返します。

開発から得られた3つの重要な教訓

Zheng Xue氏は、このマルチエージェントアプリケーション開発の道のりから得られた3つの重要な教訓を共有しました。

1. シンプルに始め、頻繁にリファクタリングする (Start Simple and Refactor Often)

「まず重要なのは、シンプルに始め、頻繁にリファクタリングを行うことです。先ほどお見せした図はかなり複雑に見えるかもしれませんが、最初からあの完成形を一気に作ろうとしたわけではないのです。」 (Number one, start simple and refactor option. I know I show you a fairly complex diagram earlier, but we didn't really focus on building that diagram from day one.)

最初は基本的なReActエージェントから始め、徐々に専門エージェント(RAGエージェントなど)を開発・検証し、それらをマルチエージェントフローに統合していくという、段階的なアプローチが重要であると述べました。現在のアーキテクチャは、特定の意図に対応するサブグラフを持つ形に進化しており、スケーラビリティも確保されています。

2. 評価駆動開発 (Evaluation Driven Development) を徹底する

「その鍵を握るのが、評価駆動開発です。私たちが強く推奨するのは、開発の初期段階から評価に着手すること。具体的にどのような評価指標(メトリクス)を設定し、何を達成目標とするのかを明確にすることが重要になります。」 (The answer is evaluation driven development. ... So our suggestion is to start early. Think about the metrics, what kind of a goal you want to achieve.)

生成AIプロジェクトは開発フェーズが短い一方で評価フェーズが長いため、早期から評価に取り組むことが不可欠です。金融業界では特に情報取得の精度が最重要であり、継続的な評価が改善への自信に繋がるとのこと。

Zheng Xue氏は評価に関する具体的なヒントとして、サブエージェントの独立した評価、エージェントの設計に応じた適切なメトリクス選択(例:要約なら簡潔さ、ツールコールなら軌跡の評価)、Ground truthがない状態からでも評価を開始できること(精度以外のメトリクスも有用)、そしてLLM-as-a-Judgeと人間のレビューを組み合わせたスケーラブルな評価体制の構築を挙げました。

3. 「ラストマイル」の精度を追求するヒューマンインザループ (Human SME in the Loop)

一般的なモデルを特定ドメインに適用した場合、初期の精度は50%未満であることも珍しくありません。チャンキング戦略、検索アルゴリズムの改善、プロンプトエンジニアリングなどで80%程度まで向上させ、さらにワークフローチェーンやサブグラフの導入で90%を目指します。しかし、90%から100%に至る「ラストマイル」の達成は非常に困難です。

「Human-in-the-Loop、つまり人間の専門家(SME, Subject Matter Expert)による介在は、私たちにとって非常に重要です。私たちは数十億ドルもの資産を扱っており、不正確さは絶対に許されません。そのため、Ask D.A.V.I.D.は、必要な場合には、引き続き人間のDavidに助言を求めるのです。」 (So human is me in the loop. It's very important to us, because we have billion dollars at stake and we cannot afford in accuracy. In another words, ask David still consults with real David wherever needed.)

※ Devid in the loopですね。

特に金融のようなクリティカルなドメインでは、100%に近い精度が求められるため、Human-in-the-Loop(人間による介在)が不可欠であると強調しました。

まとめ

JPMorgan Chaseによる「Ask D.A.V.I.D.」の発表は、AIエージェント、特にマルチエージェントシステムを複雑かつミッションクリティカルな金融ドメインで実用化するための具体的なアプローチと、そこから得られた実践的な知見に満ちたものでした。

「シンプルに始め、頻繁にリファクタリングする」「評価駆動開発を徹底する」「ヒューマンインザループを維持する」という3つの教訓は、業界を問わずAIエージェント開発に携わる多くの開発者にとって、示唆に富むものであったと言えるでしょう。LangChainを活用し、金融という高度な要求に応えるシステムを構築する彼らの取り組みは、今後のAIエージェント開発の方向性を示す貴重な事例となりそうです。