返回 MCP 目录
public公开dns本地运行

MCPBench

MCPBench是一个用于评估MCP服务器性能的框架,支持Web搜索和数据库查询两种任务的评估,兼容本地和远程服务器,主要评估准确性、延迟和令牌消耗。

article

README

🚀 🦊 MCPBench:用于评估MCP服务器的基准测试

MCPBench是一个用于评估MCP服务器的框架。它支持网络搜索和数据库查询这两种类型的服务器,并且兼容本地和远程MCP服务器。该框架主要在相同的大语言模型(LLM)和代理配置下,从任务完成准确率、延迟和代币消耗等方面对不同的MCP服务器(如Brave Search、DuckDuckGo等)进行评估。这里是 评估报告。其实现基于 LangProBe:语言程序基准测试

文档 包许可证 paperwithcode

English | 中文

🚀 快速开始

📋 新闻

我们发布了MCPBench框架,并附带详细的文档和实验报告。如需了解更多信息,请访问 GitHub 仓库

📦 安装指南

要安装MCPBench,请按照以下步骤操作:

  1. 克隆此仓库:
git clone https://github.com/modelscope/MCPBench.git
  1. 进入项目目录:
cd MCPBench
  1. 安装依赖项:
pip install -r requirements.txt

💻 使用示例

以下是使用MCPBench的基本步骤:

  1. 下载预训练的LLM模型。
  2. 配置MCP服务器。
  3. 运行评估脚本。

基础用法

from mcpbench import *

# 初始化 MCP 服务器
mcp_server = init_mcp_server()

# 加载 LLM 模型
llm_model = load_llm_model()

# 执行评估
results = evaluate(mcp_server, llm_model)

# 输出结果
print(results)

📚 详细文档

📋 数据格式

我们支持以下数据格式:

  1. JSON 格式
{
  "unique_id": "",
  "Prompt": "",
  "Answer": ""
}
  1. CSV 格式
unique_id,Prompt,Answer
,...(更多行)

📜 引用

如果你发现我们的工作对你有帮助,请考虑引用我们的项目:

@misc{mcpbench,
  title={MCPBench: A Benchmark for Evaluating MCP Servers},
  author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
  howpublished = {\url{https://github.com/modelscope/MCPBench}},
  year={2025}
}

或者参考我们的报告:

@article{mcpbench_report,
      title={Evaluation Report on MCP Servers}, 
      author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
      year={2025},
      journal={arXiv preprint arXiv:2504.11094},
      url={https://arxiv.org/abs/2504.11094},
      primaryClass={cs.AI}
}
help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端