Kimi K2をLLMエージェントで活用する場合の性能を検証してみた

ジェネラティブエージェンツの西見です。

最近「Open Agentic Intelligence」としてリリースされたKimi K2が気になったので、LLMエージェントとして利用した場合にどうなるか試してみました。GPT-4.1（Azure OpenAI Service経由）とClaude Sonnet 4と一緒に動かして比較しています。

Kimi K2は、中国のMoonshot AI社が開発したLLMです。

moonshotai.github.io

検証内容

LLMをエージェントとして使うときに必要そうな5つのカテゴリーで25個のタスクを作って試しました。

カテゴリ	タスク数	内容
ツール使用	9	自然言語から関数呼び出しを生成（calculate、search_web、send_emailなど）
マルチステップ推論	7	複数ステップのタスク実行（3〜5ステップ、分岐、ループ含む）
コンテキスト管理	2	5ターンの対話履歴から情報抽出
エラー回復	3	DB接続エラー、無効入力、部分的失敗への対処
構造化出力	4	JSON、Python関数、CSV、Markdownの生成

あくまで軽く試してみた程度なので、精緻な評価ではありません。

結果

成功率（タスクカテゴリ別）

モデル	ツール使用	マルチステップ	コンテキスト	エラー回復	構造化出力	全体
GPT-4.1	9/9 (100%)	7/7 (100%)	2/2 (100%)	3/3 (100%)	4/4 (100%)	25/25 (100%)
Kimi K2	7/9 (77.8%)	5/7 (71.4%)	2/2 (100%)	3/3 (100%)	4/4 (100%)	22/25 (88%)
Claude Sonnet 4	8/9 (88.9%)	6/7 (85.7%)	2/2 (100%)	2/3 (66.7%)	3/4 (75%)	21/25 (84%)

試行回数は少ないので、Claude Sonnet 4の機嫌が悪かった可能性はあります。

コストと速度

モデル	入力料金(/1Mトークン)	出力料金(/1Mトークン)	平均応答時間	総コスト（25タスク）
GPT-4.1	$2	$8	2,719ms	$0.24
Kimi K2	$0.60	$2.50	6,168ms	$0.01
Claude Sonnet 4	$3	$15	7,743ms	$0.13

Kimi K2はGPT-4.1の約24分の1のコストで動きました。さすがのコストパフォーマンスですね。

Kimi K2によるタスク実行の成功/失敗パターン

成功したタスク例

JSON生成タスク
- 指示: 「Alice Johnson（28歳）のユーザープロフィールJSONを作成」
- 出力: 正しいデータ型（age: int, skills: array）で完璧なJSONを生成
明示的な関数呼び出し
- 指示: 「Calculate 15 plus 27」
- 出力: calculate(operation="add", a=15, b=27) を正確に生成
エラー回復シナリオ
- 状況: 「データベース接続タイムアウト（30秒）」
- 対応: リトライ、キューイング、ユーザーへの通知といった適切な回復アクションを提示

失敗したタスク例

暗黙的なコンテキスト推論
- 指示: 「プロジェクト遅延についてチームに知らせて。Sarahがsarah@company.comでプロジェクトマネージャーです」
- 失敗: Sarahのメールアドレスを抽出できず、send_email関数のtoパラメータを空にしてしまう
複雑なマルチステップタスク
- 指示: 「ウェブアプリケーションを本番環境にデプロイ（テスト、ビルド、ステージング、本番、監視設定の5ステップ）」
- 失敗: ステップ1,2,5は実行したが、ステージング環境へのデプロイと本番デプロイをスキップ
多段階推論の計算
- 指示: 「会社に12箱あって、各箱に24個の製品が入っている。合計いくつ？」
- 失敗: 12×24の計算はできたが、「会社」というコンテキストから「在庫管理」や「発送準備」などの文脈を読み取れなかった

観察された特徴

Kimi K2は構造化出力とエラー回復の全タスクで100%の成功率を記録しました。JSONやCSV、Markdownといったフォーマットの生成では、GPT-4.1と同じ品質の出力を約24分の1のコストで実現しています。

一方で、複雑な推論や暗黙的な文脈理解が必要なタスクでは性能が低下しました。例えば「週50ドル貯金すると年間でいくらになるか」という計算では、週数（52週）の推論ステップを省略してしまう傾向が見られました。

応答速度については、GPT-4.1の2倍以上の時間を要しました。ただし、Moonshot AI社の公式サイトには現在混雑している旨の注意書きがあったため、この遅延は一時的なものである可能性があります。

また、Kimi K2は32B個のアクティブパラメータと1Tの合計パラメータを備えたMixture of Experts（MoE）モデルです。今回の検証で観察されたタスクカテゴリによる性能差は、このMoEアーキテクチャの特性を反映していると考えられます。構造化出力やパターンマッチングに特化したエキスパートモジュールが、特定タスクで高い性能を発揮している可能性があります。