ジェネラティブエージェンツの大嶋です。
「AIエージェントキャッチアップ #56 - LangWatch」という勉強会を開催しました。
generative-agents.connpass.com
アーカイブ動画はこちらです。
LangWatch
今回は、プロンプト最適化機能も持つLLM Opsプラットフォーム「LangWatch」をキャッチアップしました。
LangWatchのGitHubリポジトリはこちらです。
公式ドキュメントはこちらです。
今回のポイント
LangWatchとは
LangWatchは、LLM Opsのプラットフォームとして、以下のような機能を持ちます。
- オブザーバビリティ
- エージェントシミュレーション
- 評価(オフライン評価、リアルタイム評価)
- プロンプト管理(最適化スタジオを含む)
LangSmithやLangfuseと似ていますが、以下の機能が特徴的です。
- エージェントシミュレーション
- 最適化スタジオ
ライセンス
LangWatchはGitHubでソースコードが公開されていますが、ライセンスにはOSSではないと記載されています。
クラウド・セルフホスト・ハイブリッドで利用可能とのことですが、とくにセルフホストで利用の際はライセンスにご注意ください。
LangWatchの最適化スタジオを試してみた
今回のイベントでは、特に気になった最適化スタジオの機能を試してみました。
LangWatchにアクセスして最適化スタジオを開くと、DifyのようなワークフロービルダーのUIが表示されます。

この画面で、評価を含むワークフローを設定します。

評価(Evaluate)を実行すると、用意したデータセットに対する評価結果を確認できます。

最適化(Optimize)を実行すると、DSPyによる最適化が実行されます。

※今回試した範囲では、最適化の完了まではうまく動きませんでした。
LangWatchの最適化スタジオでは、評価を含むワークフローを構築し、DSPyによる最適化を実行することになります。 そのため、ここで実装したワークフローをそのまま公開するというものではない印象を持ちました。
つまり、LangWatchの最適化スタジオは、Difyのようにノーコードで実装したワークフローを公開して使うものではなく、DSPyをGUIで使用する機能という理解です。
その他、気になった機能
最適化スタジオ以外で気になった機能を紹介します。
LangWatch MCP
LangWatch MCPを設定したエージェントは、LangWatchのドキュメントにアクセスしたり、LangWatchの各機能を使用することができます。
発展的な使い方として、エージェントが自身のトレースを参照してデバッグできると書かれていることは興味深いです。
data-simulator
LangWatchのGitHub Organizationでは、データセットの生成のためのdata-simulatorというライブラリも公開されています。
合成データセットの生成に取り組む際は参考になるかもしれません。
エージェントシミュレーション
LangWatchには、エージェントシミュレーションという機能もあります。
ユーザーからの指示に対してエージェントがどのツールを実行する、といったシナリオを以下のように記載してテストするようです。
script=[
scenario.user("hey I have a problem with my order"),
scenario.agent(),
expect_ticket_created()
expect_ticket_label("ecommerce")
:
]
これは他のツールではあまり見たことがない機能であり、なかなか面白そうでした。
次回のご案内
以上、今回は「LangWatch」をキャッチアップしました。
次回は「AIエージェントキャッチアップ #57 - Agno 2.0」ということで、マルチエージェントのランタイムAgentOSも提供する「Agno 2.0」がテーマです!
generative-agents.connpass.com
ご興味・お時間ある方はぜひご参加ください!
また、その次の回以降のテーマも募集しているので、気になるエージェントのOSSなどあれば教えてください!