2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2では、金融業界におけるAIエージェントの信頼性構築というテーマで、ブラジルの大手フィンテック企業NubankのSayantan Mukhopadhyay氏による示唆に富む講演「Building Reliable Agents: Evaluation Challenges」が行われました。
本記事では、Nubankがいかにして信頼性の高いAIエージェントシステムを構築し、その中でLangChainをどのように活用しているか、特に「評価 (Evaluation)」の課題と取り組みに焦点を当ててお届けします。
Nubankの挑戦:AIによる金融体験の革新
Sayantan Mukhopadhyay氏(以下、Mukhopadhyay氏)はまず、Nubankがブラジルで第3位の銀行であり、メキシコとコロンビアで最も急成長している銀行であること、そして過去5年間でブラジルの2,100万人に初めてクレジットカードへのアクセスを提供した実績を紹介しました。同氏は、人々が金融に関する意思決定を苦手としている現状を指摘し、Nubankが「AIプライベートバンカー」を構築することで、この課題に取り組んでいると述べました。
「私たちは全てのお客様のためにAIプライベートバンカーを構築しています。その背景には、人々が金融に関する意思決定において悪名高いほど下手であるという事実があります。例えば、どのサブスクリプションをキャンセルするかということ自体が、多くの人にとって難しい決断です。」 (We are building the AI private factor for the for all of our customers, and the idea is that people are notoriously bad at making financial decisions like, which subscription to cancel is a digital decision for many people itself.)
Nubankは創業初期からChatGPTのようなLLM技術に注目し、LangChainチームと緊密に連携してきたとMukhopadhyay氏は語ります。
NubankにおけるAIエージェント活用事例
Mukhopadhyay氏は、NubankにおけるAIエージェントの具体的な活用事例として、主に2つのアプリケーションを紹介しました。
1. チャットボット
Nubankには約2,000万人のユーザーがおり、毎月約850万件の問い合わせがあります。その主要チャネルであるチャットにおいて、現在60%の問い合わせが最初にLLMによって処理されています。Nubankは様々な状況に対応するためのエージェント開発を進めており、その結果は継続的に改善されているとのことです。
2. 送金エージェント
より複雑な事例として紹介されたのが、送金エージェントです。このエージェントは、音声、画像、チャットを通じて送金指示を理解し、実行します。 Mukhopadhyay氏は、この送金エージェントのデモンストレーションを交えながら説明しました。
「以前はこの送金を行うのに70秒かかり、9つの異なる画面を経由していましたが、今では30秒未満で完了します。そして、CSAT(顧客満足度)は90%以上、不正確さは0.5%未満といった具合です。そして、私たちはこれを大規模に行っています。」 (Or you need this to take on 70 seconds to make this transfer to nine different screens. It's taking less than 30 seconds now. And the you can see the C sharp is more than 90% less than 0.5% inaccuracy, so on and so forth. And we are doing that at scale.)
金融の世界では1ドル、1セントが重要であり、それが顧客の信頼に直結するため、エージェントの信頼性確保が極めて重要であると強調されました。
スケーラブルなエージェントシステム構築に向けて
Mukhopadhyay氏は、チャットボットのような比較的シンプルなものと、送金エージェントのような複雑なアプリケーションとでは、構築のアプローチが異なると指摘。特に後者のような多数の金融オペレーションを処理する場合、個別のシステムを多数構築するのはスケーラブルではないため、汎用的なソリューション構築の必要性を訴えました。
NubankのLLMエコシステムは、コアエンジン、テストと評価、ツール、開発者体験の4つのレイヤーで構成されており、そのうち3つのレイヤー(テストと評価、ツール、開発者体験)でLangChainと緊密に連携しているとのことです。特に、テストと評価では「LLM as a Judge」やオンライン品質評価、開発者体験ではLangChainの初期から現在のLangGraphに至るまで、幅広く活用しています。
LangChain/LangGraphがもたらす開発効率の向上
LangChainの活用により、迅速なイテレーションが可能になり、エージェントシステム構築のための標準的なアプローチを確立できるようになったとMukhopadhyay氏は述べました。
「LangChainがなければ、より迅速なイテレーションを行うことができず、エージェントシステムやあらゆる種類の製品を構築するための標準的なアプローチ、つまりカノニカルなアプローチを取ることが非常に難しくなるでしょう。ここでの学びは、複雑なLLMフローは分析が難しい場合があるということです。集中化されたLLMログとリポジトリ、そしてグラフィカルインターフェースは、人々がより迅速な意思決定を行うのに役立ちます。なぜなら、私たちは開発者だけに意思決定をさせたいのではなく、ビジネスユーザーにも貢献してもらいたいからです。」 (without lambda, we cannot do more faster iterations, and cannot make it very standard, that what canonical approach we can take to build agent systems or any kind of products so the learnings, there is a complex element flows can be hard to analyze centralized LM logs and repository and graphical interface helps people to make faster decisions, because we don't want only our developers to make decisions. We want our business users to also contribute to it.)
さらに、LangGraphについては「フローを表現するための認知的な努力を減らすことができる」と述べ、人間の指示を機械が理解しやすくする上で役立っていると評価しました。
AIエージェントの信頼性を支える「評価」の重要性と課題
講演の核心である「評価 (Evals)」について、Mukhopadhyay氏はNubankが直面するいくつかの課題を挙げました。
- 多言語対応 Nubankはブラジル(ポルトガル語)、メキシコ、コロンビア(スペイン語)でサービスを提供しており、言語や方言、話し方の違いに対応する必要がある。ブラジル人口の58%が顧客であるため、広範なユーザー理解が不可欠。
- ブランドイメージの保護 Nubankはブラジルでマクドナルドやナイキよりも人気のあるブランドであり、ジェイルブレイクやガードレールといった観点から、非常に高い基準を維持する必要がある。
- メッセージングの正確性 金融商品を扱う上で、顧客のお金に関するメッセージングは極めて正確でなければならず、信頼を損なうことは許されない。
ユースケース別:具体的な評価ニーズ
続いて、顧客サービスと送金のユースケースにおける具体的な評価ニーズが説明されました。
顧客サービスエージェント
顧客サービスでは、単なる正確性に加え、顧客へのアプローチ方法や共感が重要になるとMukhopadhyay氏は指摘します。
「例えばお客様から『私のカードはどこですか?』あるいは『この請求に心当たりがないのですが』といったお問い合わせをいただいた際、もし私たちの応対があまりにも機械的であれば、お客様からの信頼や共感を失うことになりかねません。これは非常に重要な点です。人間同士であれば自然に築けるような心のつながりも、機械にとっては非常に難しい課題なのです。」 (If a customer is calling us, Hey, where is my card? Or hey, I see this chart that I don't recognize. If we give a very robotic experience, we lose the customer's trust and the empathy and it matters. It's very easy for human to have this connection. It's very hard for machine to have this connection.)
評価項目としては、顧客の意図理解、社内ソースからのコンテンツ・コンテキスト検索能力、適切なページへ誘導するディープリンクの精度、そしてハルシネーションを起こさないことが挙げられました。
送金エージェント
送金エージェントでは、トーンや感情よりも「正確性」が最優先されます。評価すべき点として、名前エンティティ認識(NER)の精度(例:「兄に送金して」と言われた際にどの兄かを特定する)、ユーザーリクエストの正しい解釈(例:「明日送金して」という指示の理解)、そして正しいアクションの特定(例:送金キャンセル処理)などが重要になると述べました。
評価ドリブンな開発サイクルの実現
効果的な評価システムがない場合、開発はA/Bテストに依存した直線的なプロセスになりがちですが、LangSmithのようなツールを活用することで、開発サイクルを大きく改善できるとMukhopadhyay氏は語ります。
「もし、トレース情報を密に連携させ、オブザーバビリティやロギング機能、さらにはアラート機能といったものを備えたシステムがあれば、オブザーブしたデータをもとにフィルタリングを行い、データセットを定義し、実験を実行するという、一貫した開発サイクルを回せるようになります。これこそが、私たちが他の領域でも実現している好循環(フライホイール効果)であり、私たちはこの仕組みを、生成AIアプリケーション開発のためにLangChainで構築しているのです。」 (if we have a system that can very well connect the traces and give observability, give logging and then alerts on top of it, so on and so forth. Then we have a full cycle of observability to filtering, to define data sets, to run experiments and go on. And this is the flying bill we have in other situations. And we are building with landscape for our generative AI applications.)
オフライン評価とオンライン評価の組み合わせ
Nubankでは、オフライン評価とオンライン評価を組み合わせて実施しています。
オフライン評価
実験結果を基に、人間による評価(Mukhopadhyay氏は「human eval in human labors」と表現)や、品質メトリクス、顧客ヒューリスティクスに基づいた統計テストなどを行います。
オンライン評価
サンドボックス環境などでテストを実行し、継続的な改善と開発のループを回します。Mukhopadhyay氏は、「もし優れたオンライン評価、トレーシング、ロギング、学習などを行うことができれば、開発速度は大幅に向上します」と、オンライン評価の重要性を強調しました。
「LLM as a Judge」:スケーラブルな品質維持への挑戦
最後にMukhopadhyay氏は、「LLM as a Judge」というコンセプトについて触れました。これは、LLMを評価者として活用するアプローチです。
「送金について説明した状況を想像してみてください。その状況では、誰に送金するのか、リクエストは何か、どこからいくら送金するのか、それら全てを理解する必要があります。そして、それら全てを行うこと、例えば現在、毎日数十万件または数百万件のそのようなトランザクションを行っているとします。その量のデータとラベリングの量は、サンプリングを行ったとしても、製品の品質を維持するには十分ではありません。だからこそ、より多くのラベリングを行う必要があり、それを人間だけで行うのはスケーラブルではありません。」 (Imagine the situation you are describing, about the money transfer, in that situation, you need to understand who you're sending, what does request, how much money from, where, all of that and doing all of that sending, like we are currently doing, say, few 100,000 or few million such transactions every day. That amount of data and that amount of labeling, even if we do like sampling, it's not enough to maintain the quality of the product. And that's why we need to do more labeling and doing it only by human is not scalable.)
人間によるラベリングだけでは、トレーニングコスト、時間、一貫性の観点から限界があるため、LLMを評価プロセスに組み込むことが、大規模なトランザクションを処理するシステムにおいて品質を維持するために不可欠であるとの見解を示しました。
まとめ
NubankのSayantan Mukhopadhyay氏による講演は、金融というミッションクリティカルな領域でAIエージェントの信頼性をいかに構築し、維持していくかという具体的な課題と、それに対する実践的なアプローチを深く掘り下げたものでした。特に、LangChainエコシステム(LangSmith、LangGraphを含む)を評価とオブザーバビリティの基盤として活用し、オフライン・オンライン評価、そして「LLM as a Judge」といった多角的な評価手法を組み合わせることで、開発サイクルの高速化とエージェントの品質向上を目指すNubankの取り組みは、AIエージェント開発に携わる多くの開発者にとって、重要な知見だと感じました。