【LangChain Interrupt参加レポート】Replit Agent v2 の進化と自律性の追求 – Michele Catasta氏 (Replit) と Harrison Chase氏 (LangChain) との対談

2025年5月13日から5月14日にかけてサンフランシスコで開催されたAIエージェント開発のテックイベント「LangChain Interrupt」。Day 2のプロダクトキーノートに続き、注目セッションの一つとして、ReplitのMichele Catasta氏とLangChainのCEOであるHarrison Chase氏による対談が行われました。

本記事では、特に「Replit Agent v2」の進化と、エージェントの自律性向上に向けた取り組みについて語られた内容をお届けします。

blog.replit.com

Replit Agent v2 の進化:自律性の飛躍的向上

対談の冒頭、Harrison Chase氏は、わずか2ヶ月前に早期アクセスが開始されたReplit Agent v2の進化について尋ねました。Michele Catasta氏は、v2の最大の変化を「自律性 (autonomy)」であると強調しました。

「最も端的に言うと、『自律性』です。v1と比較して、自律性のレベルとユースケースが格段に向上しました。もし昨年9月からv1を試された方がいらっしゃれば、数分程度の自律動作が限界だったことを覚えていらっしゃるでしょう。しかし現在では、10分、15分と動作し続けることも珍しくありません。ここで言う『動作し続ける』とは、ただ空回りしているのではなく、ユーザーが望むことを達成するために有用な作業を行っているということです。」 (The shortest possible summary is autonomy, the level of autonomy, the issue cases compared to v1 if you tried v1 starting from September last year, you recall that he was working autonomously for a couple of minutes, and most and right now is not uncommon to see it running for 10-15, minutes. And when I mean, what I say by running is not spinning the wheels like rather doing useful work and accomplishing what the user wants.)

この飛躍的な自律性の向上は、多くの再設計、新しいモデルの登場、そして本番環境での学びによって達成されたとCatasta氏は語ります。

自律性向上の鍵:評価 (Evals) とオブザーバビリティ (Observability)

Harrison Chase氏が自律性向上のための具体的な調整について問うと、Catasta氏は2つの柱を挙げました。一つは「関連する評価 (related evaluations)」への投資であり、エージェントが高度になるほど、意図しない後退 (regression) を防ぎ、進捗を正確に把握するために不可欠であると述べました。もう一つは「オブザーバビリティ」です。

「私たちはLangSmithを徹底的に活用していますし、他のツール群も使用しています。エージェントのオブザーバビリティをどう行うかについては、業界全体で学んでいる段階だと思います。これは過去数十年の長期間稼働システムとは全く異なる代物です。」 (We use LangSmith pretty thoroughly. We also use another set of tools, and I think we're all learning at the field how to do observability on agents. It's a completely different animal compared to long lived systems in the past decades.)

Human-in-the-Loop (HITL) の変化と自律性への強い志向

かつて重要視されたHuman-in-the-Loopの考え方にも変化が見られるとCatasta氏は指摘します。ユーザーはエージェントが正しく動作している際には邪魔されたくなく、タスクの完了を望む傾向が強まっているとのこと。

「現在私たちが取っている戦略は、通知を他のプラットフォームにもオフロードしようというものです。例えば、モバイルアプリがあります。これにより、ユーザーの注意を引き戻すことができますが、同時に、常にチャットが利用可能で、エージェントに停止を指示したり、実際に作業中でも別の作業を指示したりすることができます。…全体として、私たちは時間とともにより多くの自律性に向かって進んでおり、それが勝利の方程式だと考えています。」 (So I think the strategy that we're following at the moment is we try to offload notifications also to other platforms. We have a mobile app. For instance, this guy allows you to bring back the user attention, but at the same time, there is always a chat available where you can ask the agent to stop. You can ask it to do different work, even while it's actually working. ... But I think overall, we are all going towards more autonomy over time. And I think that's the winning lesson.)

Replit Agent のユーザー層と活用事例:SaaSのアンバンドリングも

Replit Agentは、無料枠の開放以降、コーディング経験のないユーザーによるソフトウェア構築から、より野心的なビジネスアプリケーション開発まで、幅広く活用されています。特にCatasta氏が興奮しているのは「SaaSのアンバンドリング (unbundling SaaS)」という概念です。

「高価なSaaSを7桁の金額を費やして購入する代わりに、必要な機能が2つだけなら、それを再構築して社内で展開するという考え方です。これは、より多くの企業が取り組んでいる方向性だと私は見ています。」 (There is this concept of unbundling SaaS program talks about the idea that, why would I spend seven figures buying a very expensive SaaS when I need only two fishers, I'm gonna rather rebuild it and deployment, promoting the company. So this is one direction that I see a lot more companies working on.)

モデル戦略:高性能モデルの活用とオープンソースへの視点

Replit Agent v2は、Claude 3.7 Sonnetのような高性能モデルを多用し、自律性を高めているとCatasta氏は明かしました。Gemini 2.5 Proなど、業界全体がエージェント指向の高度なワークフローを可能にする方向へ進んでいるとの見解も示しました。現時点では主にプロプライエタリなモデルを活用し、オープンウェイトモデルの本格的な活用は、市場の進展を見極めながら検討する方針のようです。ユーザーがモデルを選択できる機能については、複数のモデルを組み合わせている現状ではプロンプト管理の複雑さから、慎重な姿勢を見せました。

パフォーマンス、コスト、レイテンシのバランス

AIアプリケーション開発における永遠の課題であるパフォーマンス、コスト、レイテンシのバランスについて、Catasta氏はReplit Agentではパフォーマンスとコストを最優先し、レイテンシはある程度許容していると語りました。

「非常に長時間動作します。そして、おそらくそれが、特に一般提供(GA)にして無料枠を設けた際に、私たちがした最も恐ろしい賭けでした。その理由は、レイテンシの要素をあまり強調していなかったからです。しかし、エージェントが人々の望むことを達成すること、特に私たちがターゲットとする非テック系の理想顧客プロファイル(ICP)にとって、それがはるかに重要であると強く信じていました。」 (It runs for so long. And possibly there was the scariest bet we did when we launched it, especially when we put it on we made GA and the reason is we were really not emphasizing too much the latency components, but we strongly believe that it's far more important for the agent to get down what people want, and especially for the ICP, the way we mine, which is not technical people.)

結果として、ユーザーは多少の待ち時間よりも、エージェントが達成するタスクの量と質を評価しているようです。

オブザーバビリティの深化:アセンブリ言語時代のデバッグ

エージェントのオブザーバビリティの難しさについて、Catasta氏は再び言及し、従来のDataDogスタイルの集計データだけでは不十分であると指摘しました。

「LangSmithのようなものは非常に重要です。なぜなら、残念ながら、私たちはまだエージェントのデバッグに関しては、いわばアセンブリ言語の時代にいるからです。…エージェントがなぜ間違った選択をしたのか、あるいは逸脱しているのかを理解しようとするとき、最後の手段は、実際に入力全体、生成された出力全体を読み、なぜ特定の選択がなされたのかを理解しようとすることです。…オブザーバビリティの初期段階にいると思いますが、エージェントやエージェント的なワークロードの構築を真剣に考え始めるすべての人に推奨するのは、初日からオブザーバビリティに投資することです。」 (Something like LangSmith is extremely important, because unfortunately, we are still at the kind of like assembly era of the body for agents. ... When you are trying to understand why the agent has made the wrong choice or is going sideways, your last resort is to actually read the entire input from the output, the generated output, and trying to figure out why certain choices can be made. ... So I think we are at the early stages of observability. But what I recommend everyone will start to really think of being an agent, or like any agentic workload, is to invest in observability from day one.)

Replitでは、チーム全体が製品を日常的に使用し (ドッグフーディング)、スタック全体を理解することで、この複雑なデバッグに対応しているとのことです。

Replit Agent v3 への展望

最後に、Harrison Chase氏がReplit Agent v3の展望について尋ねると、Catasta氏はいくつかの興味深い方向性を示しました。

  • Computer Useを活用したテストの自動化: 現在は人間が行っている多くの些細なテスト作業を削減し、エージェントの自律時間を例えば10分から1時間へと飛躍させることを目指しています。
  • ソフトウェアテストのループをエージェント開発に組み込む: コードの観測可能性の高さを活かし、テストを通じてエージェントの正しさを検証します。
  • サンプリングと並列処理の活用: 複数のアプローチを試し、最適な解を選択するような、より高度なエージェント挙動の実現。Catasta氏は「サンプリングし、ランク付けし、問題に対する最良の解決策を選択するという軌跡全体に沿ってそれを実行することを想像しています」(I imagine taking this concept and carrying along the entire trajectory where you sample and then you rank and pick like the best solution for the problem.) と語り、これによりパフォーマンス向上に繋がるとしています。

まとめ

Michele Catasta氏とHarrison Chase氏の対談は、AIエージェント開発の最前線で取り組まれている課題と、その解決に向けた具体的なアプローチを垣間見ることができる、非常に示唆に富むものでした。特に、Replit Agent v2における「自律性」への強いコミットメント、それを支える評価とオブザーバビリティの重要性、そして将来のv3に向けた野心的なビジョンは、AIエージェント開発に携わる多くの開発者にとって、大きな刺激になったのではないかと感じます。