Kimi K2をLLMエージェントで活用する場合の性能を検証してみた

ジェネラティブエージェンツの西見です。

最近「Open Agentic Intelligence」としてリリースされたKimi K2が気になったので、LLMエージェントとして利用した場合にどうなるか試してみました。GPT-4.1(Azure OpenAI Service経由)とClaude Sonnet 4と一緒に動かして比較しています。

Kimi K2は、中国のMoonshot AI社が開発したLLMです。

moonshotai.github.io

検証内容

LLMをエージェントとして使うときに必要そうな5つのカテゴリーで25個のタスクを作って試しました。

カテゴリ タスク数 内容
ツール使用 9 自然言語から関数呼び出しを生成(calculate、search_web、send_emailなど)
マルチステップ推論 7 複数ステップのタスク実行(3〜5ステップ、分岐、ループ含む)
コンテキスト管理 2 5ターンの対話履歴から情報抽出
エラー回復 3 DB接続エラー、無効入力、部分的失敗への対処
構造化出力 4 JSON、Python関数、CSV、Markdownの生成

あくまで軽く試してみた程度なので、精緻な評価ではありません。

結果

成功率(タスクカテゴリ別)

モデル ツール使用 マルチステップ コンテキスト エラー回復 構造化出力 全体
GPT-4.1 9/9 (100%) 7/7 (100%) 2/2 (100%) 3/3 (100%) 4/4 (100%) 25/25 (100%)
Kimi K2 7/9 (77.8%) 5/7 (71.4%) 2/2 (100%) 3/3 (100%) 4/4 (100%) 22/25 (88%)
Claude Sonnet 4 8/9 (88.9%) 6/7 (85.7%) 2/2 (100%) 2/3 (66.7%) 3/4 (75%) 21/25 (84%)

試行回数は少ないので、Claude Sonnet 4の機嫌が悪かった可能性はあります。

コストと速度

モデル 入力料金(/1Mトークン) 出力料金(/1Mトークン) 平均応答時間 総コスト(25タスク)
GPT-4.1 $2 $8 2,719ms $0.24
Kimi K2 $0.60 $2.50 6,168ms $0.01
Claude Sonnet 4 $3 $15 7,743ms $0.13

Kimi K2はGPT-4.1の約24分の1のコストで動きました。さすがのコストパフォーマンスですね。

Kimi K2によるタスク実行の成功/失敗パターン

成功したタスク例

  1. JSON生成タスク

    • 指示: 「Alice Johnson(28歳)のユーザープロフィールJSONを作成」
    • 出力: 正しいデータ型(age: int, skills: array)で完璧なJSONを生成
  2. 明示的な関数呼び出し

    • 指示: 「Calculate 15 plus 27」
    • 出力: calculate(operation="add", a=15, b=27) を正確に生成
  3. エラー回復シナリオ

    • 状況: 「データベース接続タイムアウト(30秒)」
    • 対応: リトライ、キューイング、ユーザーへの通知といった適切な回復アクションを提示

失敗したタスク例

  1. 暗黙的なコンテキスト推論

    • 指示: 「プロジェクト遅延についてチームに知らせて。Sarahがsarah@company.comでプロジェクトマネージャーです」
    • 失敗: Sarahのメールアドレスを抽出できず、send_email関数のtoパラメータを空にしてしまう
  2. 複雑なマルチステップタスク

    • 指示: 「ウェブアプリケーションを本番環境にデプロイ(テスト、ビルド、ステージング、本番、監視設定の5ステップ)」
    • 失敗: ステップ1,2,5は実行したが、ステージング環境へのデプロイと本番デプロイをスキップ
  3. 多段階推論の計算

    • 指示: 「会社に12箱あって、各箱に24個の製品が入っている。合計いくつ?」
    • 失敗: 12×24の計算はできたが、「会社」というコンテキストから「在庫管理」や「発送準備」などの文脈を読み取れなかった

観察された特徴

Kimi K2は構造化出力とエラー回復の全タスクで100%の成功率を記録しました。JSONやCSV、Markdownといったフォーマットの生成では、GPT-4.1と同じ品質の出力を約24分の1のコストで実現しています。

一方で、複雑な推論や暗黙的な文脈理解が必要なタスクでは性能が低下しました。例えば「週50ドル貯金すると年間でいくらになるか」という計算では、週数(52週)の推論ステップを省略してしまう傾向が見られました。

応答速度については、GPT-4.1の2倍以上の時間を要しました。ただし、Moonshot AI社の公式サイトには現在混雑している旨の注意書きがあったため、この遅延は一時的なものである可能性があります。

また、Kimi K2は32B個のアクティブパラメータと1Tの合計パラメータを備えたMixture of Experts(MoE)モデルです。今回の検証で観察されたタスクカテゴリによる性能差は、このMoEアーキテクチャの特性を反映していると考えられます。構造化出力やパターンマッチングに特化したエキスパートモジュールが、特定タスクで高い性能を発揮している可能性があります。

どのように活用すると良いか

検証結果から、以下のような使い分けが考えられます。

Kimi K2が向いてる場面

  • アクセスログやエラーログをJSON形式に整形する作業
  • データベースの出力をCSV形式でエクスポートする処理
  • 月次売上レポートや在庫状況レポートなど、フォーマットが決まっているドキュメントの生成
  • 「ファイルが見つかりません」「接続がタイムアウトしました」といったエラーに対する対処方法の提示

GPT-4.1を使った方がいい場面

  • マイクロサービス分割の判断やデータベース設計の最適化といったアーキテクチャ決定
  • 「ユーザーが商品を購入→在庫確認→決済処理→配送手配→通知送信」のような連続した処理フローの設計
  • 既存システムの改善案を複数パターン提示して比較する作業
  • ペアプログラミングやコードレビュー中のリアルタイムフィードバック

コストが約24分の1であることから、バッチ処理や大量データの変換ではKimi K2が経済的に有利です。開発初期段階では、まずKimi K2で実装を試み、要求を満たさない部分のみGPT-4.1に切り替えるアプローチも有効と考えられます。

まとめ

Kimi K2は万能ではありませんが、構造化データの処理やパターンが決まっているタスクでは、GPT-4.1の24分の1のコストで同等の結果を得られました。

今回の検証は25タスクという限定的なものですが、大量のデータ変換や定型処理が必要な場面では、Kimi K2を使うことで大幅なコスト削減が期待できます。もし活用する場合は、まずはKimi K2で試してみて、うまくいかない部分だけGPT-4.1を使うという段階的なアプローチが現実的かなと思いました。