【LangChain Interrupt参加レポート】投資管理プラットフォームへのAIエージェント「Aladdin Copilot」導入から、LangSmithとLangGraphを活用してエンタープライズ規模で展開する取り組みへ

2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、金融大手BlackRock社による注目セッション「From Pilot to Platform: Aladdin Copilot (プラットフォームとしてのAladdin Copilotへ)」が行われました。BlackRockのAIエンジニアリングリードであるBrennan Rosales氏と、プリンシパルAIエンジニアリングのPedro Vicente Valdez氏が登壇し、同社の投資管理プラットフォームAladdinにAIエージェント「Aladdin Copilot」を導入し、LangSmithとLangGraphを活用してエンタープライズ規模で展開する取り組みについて詳細に語りました。

BlackRockとAladdin：巨大金融プラットフォームの挑戦

まずBrennan Rosales氏が、BlackRock社とAladdinプラットフォームについて紹介しました。BlackRockは運用資産残高（AUM）11兆ドルを超える世界有数の資産運用会社であり、その目標は「人々が経済的な幸福を体験できるよう支援すること」。この目標達成の鍵となるのが、独自のテクノロジープラットフォームAladdinです。

Aladdinは投資管理プロセスを統一し、パブリック市場とプライベート市場へのアクセス、機関投資家と個人投資家のニーズ対応を可能にする包括的なソリューションです。BlackRock自身が最大のユーザーであると同時に、世界70カ国、数百のクライアントに提供されています。Aladdin組織には約7000人が所属し、うち4000人以上がエンジニアとして、日々100ものAladdinフロントエンドアプリケーションを構築・保守しています。

Aladdin Copilot：AIによる投資管理の革新

BlackRockがAIに期待する主要な成果は、生産性の向上、Alpha（市場平均を上回る収益）の創出、そしてパーソナライズされたプラットフォーム体験の提供です。このビジョンを実現する中核がAladdin Copilotイニシアチブです。

Aladdin Copilotは、100のAladdinフロントエンドアプリケーション全てに組み込まれ、プラットフォーム全体の「結合組織 (connective tissue)」として機能します。ユーザーに対し適切なタイミングで関連コンテンツをプロアクティブに提示し、生産性向上を支援します。

そのコアバリュードライバーとして、Brennan Rosales氏は以下の3点を挙げました。

Aladdinエキスパート化の促進: より直感的なユーザーエクスペリエンスにより、全てのユーザーがAladdinのエキスパートとなれるように支援します。
パーソナライゼーションとカスタマイズの深化: 高度に設定可能な体験を通じて新たな効率性を引き出します。
インサイトへのアクセスの民主化: データへのアクセスを容易にし、より良い意思決定を可能にします。

Aladdin Copilotのアーキテクチャ

Aladdin Copilotのアーキテクチャは、ユーザークエリのライフサイクルに沿って設計されています。Brennan Rosales氏はその主要な流れとコンポーネントを説明しました。

まず、ユーザーが「ポートフォリオ1における航空宇宙セクターへのエクスポージャーは？」といったクエリを送信すると、Aladdinアプリケーションの種類、画面表示内容、ポートフォリオ、アセット、グローバル設定など、豊富なコンテキスト情報と共に処理が開始されます。

システムの中核をなすのがPlugin Registry Engineです。Aladdinには特定の金融ドメインを専門とするエンジニアリングチームが50〜60も存在します。Plugin Registry Engineは、これらのチームが自身のもつ既存のAladdin APIやカスタムエージェントをAladdin Copilotシステムに容易にプラグインできるようにする仕組みです。Brennan Rosales氏は、標準化されたエージェントコミュニケーションプロトコルとして、LangChain Agent ProtocolやA2A (Agent to Agent)のような新しい標準を積極的に評価していることにも言及しました。

クエリはまず、LangChainで構築されたオーケストレーショングラフの最初のノードであるInput Guardrail Node（入力ガードレールノード）に入ります。ここではResponsible AIの観点から、オフトピックなコンテンツや有害コンテンツのフィルタリング、PII（個人識別情報）の適切な取り扱いが行われます。

次にFiltering and Access Control Node（フィルタリングおよびアクセス制御ノード）で、数千にも及ぶ登録済みエージェントやツールの中から、ユーザーの権限やコンテキストに基づいてアクセス可能なものを絞り込みます。これにより、後続のプランニングステップでのLLMの負荷を軽減し、パフォーマンスを維持します。

そしてOrchestration Node（オーケストレーションノード）では、主にGPT-4のFunction Callingを利用して、プランニングとアクションのステップを繰り返します。LLMが答えを見つけるか、見つけられないと判断するまでこの処理が続きます。

最後に、得られた回答はOutput Guardrail Node（出力ガードレールノード）を通過し、ハルシネーション（もっともらしい誤情報）の検出が試みられた上でユーザーに提示されます。

Aladdin Copilotの評価戦略：評価駆動開発の徹底

続いてPedro Vicente Valdez氏が、この複雑なAladdin Copilotシステムをどのように評価し、信頼性を担保しているかについて解説しました。現状、多くのAIエージェント開発と同様に、Aladdin Copilotも主にスーパーバイザー型（人間が監視・介入するタイプ）のエージェントを採用しています。その理由をPedro氏は「構築、リリース、テストが非常に容易だからです。(because it's very easy to build. It's basically very easy to release. It's very easy to test.)」と述べ、将来的には自律型エージェントへの移行も視野に入れていることを示唆しました。

Aladdin CopilotはLangGraph上に構築されており、その評価にはLangSmithが徹底的に活用されています。Pedro氏は、特に評価駆動開発 (Evaluation Driven Development) の重要性を強調しました。

「従来のコーディングでテスト駆動開発を行うのと同様に、LLMの世界でも評価駆動開発を行わなければなりません。」 (similar to how in traditional coding, you are doing test driven development, it's no different. In the world of llms, you have to do evaluation driven development.)

この考えに基づき、BlackRockではまずシステムプロンプトの評価から着手します。金融業界特有の厳格さが求められるため、例えば「投資アドバイスは決して行わない」といった意図した振る舞いが確実に守られるよう、大量の合成データや専門家の知見を用いてテストケースを作成し、判定用LLM (Judge LLM) を使って評価します。この評価プロセスはCI/CDパイプラインに完全に統合され、毎日のビルドや全てのプルリクエスト（PR）ごとに実行されることで、システムの品質維持と迅速な開発サイクルを両立させています。

「これは私たちのCI/CDパイプラインの非常に重要な部分です。毎日実行され、全てのPRで実行されます。…これこそが、この分野で非常に迅速に動くことを可能にしているのです。」 (This is very important part of our CICD pipelines. It runs every day. It runs on every PR. Why? Because we are a bunch of developers. Every day. We are improving the system. Every day we are releasing to our development environment. And you want to know if you're breaking stuff, you want to know if you're reducing the performance of the system. I know it's very easy to chase your own tail with LLM. So this is exactly what lets us move really fast in the area.)

システムプロンプトの評価に加え、エージェント間の連携やAPIコールを含むオーケストレーション全体の評価も不可欠です。そのために、開発者がテストシナリオ（どのアプリケーションか、ユーザーの画面コンテキスト、ポートフォリオ情報、マルチターン対話履歴など）を定義できるConfiguration Layer（設定レイヤー）と、そのシナリオに対する期待される正しい動作（グラウンドトゥルース）を定義するSolution Layer（解決策レイヤー）を用意しています。これにより、複雑なマルチステップ・マルチターンのインタラクションを網羅的にテストし、システム全体の信頼性を高めています。

Pedro氏は最後に、エンタープライズ規模でのAIエージェント開発において、統計的にシステムの健全性を把握し、継続的な改善を可能にするためには、評価駆動開発が不可欠であると改めて強調しました。

「評価駆動開発は非常に重要です。特に大企業で（開発を）連携させようとする場合、個々のクエリが機能しない、別のクエリが機能しない、といった問題に対処するためには、システムが機能していること、改善していること、悪化していないことを統計的に示す方法が必要です。それによって、スケーラブルな製品を構築し続けることができるのです。」 (Evaluation Driven Development is very important, because, especially when you're trying to federate in large enterprise otherwise, hey, my individual query is not working. Hey, this other query is not working. You need a statistical way of saying that your system is working, is improving, is not deteriorating, so that you can continue to build a scalable products.)

まとめ

BlackRockのBrennan Rosales氏とPedro Vicente Valdez氏によるセッションは、世界最大級の金融プラットフォームにおけるAIエージェント「Aladdin Copilot」の開発と運用、特にそのアーキテクチャ設計思想と厳格な評価戦略について、具体的かつ実践的な知見を共有するものでした。LangChainのLangSmithやLangGraphといったツール群が、エンタープライズレベルの複雑なAIシステム構築においていかに活用されているかを示す好例と言えるでしょう。

特に、金融というミッションクリティカルなドメインでAIの信頼性を担保するための「評価駆動開発」への徹底したコミットメントと、その具体的な手法は、AIエージェント開発に携わる多くの開発者にとって、示唆に富む内容でした。エンタープライズAIにおけるガードレールの設計、プラグインアーキテクチャによる拡張性確保、そして何よりも継続的な評価による品質保証の重要性を改めて認識させられるセッションでした。