article
README
🚀 语音生成MCP服务器
这是一个基于模型上下文协议(MCP)的服务器,借助Minimax AI API实现语音生成功能。该服务器可将文本转换为语音,并自动将生成的音频文件上传至亚马逊S3,方便访问和共享。
✨ 主要特性
- 文本转语音生成:利用Minimax AI的语音合成API,将文本转换为高质量语音。
- S3集成:自动将生成的音频文件上传至亚马逊S3,并采用有序的目录结构。
- MCP协议支持:完全兼容模型上下文协议,可与AI助手实现无缝集成。
- 身份验证:内置API密钥认证机制,保证访问安全。
- 多种传输模式:支持HTTP、SSE和STDIO传输协议。
- Docker支持:可通过Docker和Docker Compose轻松部署。
- 可配置音频设置:可自定义采样率、比特率和格式选项。
📦 安装指南
本地安装
- 克隆仓库
git clone <repository-url>
cd voice-gen-mcp
- 创建虚拟环境
python3 -m venv venv
source venv/bin/activate # 在Windows上:venv\Scripts\activate
- 安装依赖项
pip install -r requirements.txt
- 配置环境变量
cp env.example .env
# 使用实际配置值编辑.env文件
Docker安装
- 构建Docker镜像
docker build -t voice-gen-mcp .
- 使用Docker Compose运行
cp env.example .env
# 使用配置信息编辑.env文件
docker-compose up -d
📚 详细文档
环境变量
基于env.example文件创建一个.env文件,并设置以下必需变量:
语音生成API(必需)
VOICE_GEN_API_GROUP_ID=your_minimax_group_id
VOICE_GEN_API_KEY=your_minimax_api_key
S3配置(必需)
S3_BUCKET_NAME=your_s3_bucket_name
S3_REGION=us-east-1
S3_ACCESS_KEY_ID=your_s3_access_key_id
S3_SECRET_ACCESS_KEY=your_s3_secret_access_key
S3_ENDPOINT=https://s3.amazonaws.com
S3_PREFIX=voice-gen/
💻 使用示例
启动服务器
本地开发
python3 server.py
Docker
docker run -d \
--name voice-gen-mcp \
-p 8000:8000 \
--env-file .env \
voice-gen-mcp
Docker Compose
docker-compose up -d
MCP客户端
服务器支持多种传输模式:
- HTTP:
http://localhost:8000/mcp - SSE:
http://localhost:8000/sse - STDIO:直接进行进程通信
可用工具
generate_voice
将文本转换为语音并上传至S3。
参数:
text(字符串,必需):要转换为语音的文本。model(字符串,可选):要使用的模型(默认:"speech-2.5-hd-preview")。voice_id(字符串,可选):要使用的语音ID(默认:"mylxsw_voice_1")。speed(浮点数,可选):语音速度(默认:1.0,通常为0.5 - 2.0)。
返回值:
- 包含S3 URL和文件大小的成功消息。
- 若生成失败,则返回错误消息。
示例:
{
"text": "Hello, this is a test of the voice generation system.",
"model": "speech-2.5-hd-preview",
"voice_id": "mylxsw_voice_1",
"speed": 1.2
}
速度控制:
speed = 0.5:半速(较慢的语音)。speed = 1.0:正常速度(默认)。speed = 1.5:1.5倍速(较快的语音)。speed = 2.0:双倍速(非常快的语音)。
微信扫一扫