返回 Skill 列表
extension
分类: 开发与工程无需 API Key

audio-translate

将英文音频文件自动翻译为中文文本。使用 Whisper 语音识别和 HY-MT1.5 翻译模型,支持 wav/mp3/flac/ogg 格式。适用于 AI PC 本地离线音频翻译场景。当用户提到音频翻译、语音翻译、英文转中文、ASR 翻译时使用此技能。

person作者: modelscope_mp_397873639hubModelScope

英文音频翻译为中文

基于 OpenVINO 优化的 Whisper + HY-MT1.5 模型,在 AI PC 上实现高效的英文音频到中文文本的自动翻译。

快速开始

1. 安装依赖

pip install openvino-genai librosa soundfile numpy modelscope

2. 下载模型(首次使用)

python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models

模型将通过阿里云 CDN 加速下载,约需 5-10 分钟:

  • distil-whisper-large-v3-int8-ov - 语音识别模型 (INT8 量化)
  • HY-MT1.5-1.8B-int4-ov - 翻译模型 (INT4 量化)

3. 运行翻译

python ~/.qoder-cn/skills/audio-translate-zh/audio_translate.py --model-dir ./models audio.wav

工作流程

英文音频 → Whisper ASR → 英文文本 → HY-MT1.5 翻译 → 中文文本
  1. 音频加载: 自动重采样到 16kHz 单声道
  2. 语音识别: distil-whisper-large-v3 转录英文文本
  3. 机器翻译: HY-MT1.5-1.8B 流式输出中文翻译

使用示例

基本用法

# 翻译 WAV 文件
python audio_translate.py --model-dir ./models speech.wav

# 翻译 MP3 文件
python audio_translate.py --model-dir ./models podcast.mp3

# 翻译 FLAC 文件
python audio_translate.py --model-dir ./models lecture.flac

高级选项

# 使用 GPU 加速推理
python audio_translate.py --model-dir ./models --device GPU audio.wav

# 指定自定义模型路径
python audio_translate.py --whisper-dir /path/to/whisper --mt-dir /path/to/mt audio.mp3

# 调整最大生成长度
python audio_translate.py --model-dir ./models --max-tokens 512 long_audio.wav

从管道读取

# 批量处理
find . -name "*.wav" | xargs -I {} python audio_translate.py --model-dir ./models {}

输出示例

[1/3] 加载音频: test_audio.wav
       时长: 5.9 秒
[2/3] 语音识别中 (Whisper, 设备: CPU) ...
       识别结果: Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
[3/3] 翻译中 (HY-MT1.5, 设备: CPU) ...
       翻译结果: 奎特先生是中产阶级的使者,我们很高兴能够迎接他的福音。

==================================================
原文 (EN): Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
译文 (ZH): 奎特先生是中产阶级的使者,我们很高兴能够迎接他的福音。
==================================================

支持的音频格式

  • WAV - 无损 PCM 音频
  • MP3 - MPEG Audio Layer III
  • FLAC - Free Lossless Audio Codec
  • OGG - Ogg Vorbis
  • 其他 librosa 支持的格式

音频会自动重采样到 16kHz 单声道 float32。

性能优化

CPU vs GPU

| 设备 | Whisper 识别速度 | HY-MT1.5 翻译速度 | 推荐场景 | |------|------------------|-------------------|----------| | CPU | ~2-3x 实时 | ~5-8 tokens/s | 短音频、无 GPU | | GPU | ~5-8x 实时 | ~15-25 tokens/s | 长音频、批量处理 |

内存占用

  • Whisper INT8: ~500MB
  • HY-MT1.5 INT4: ~1.2GB
  • 总计: 约 2GB RAM

适合在大多数 AI PC 上运行。

故障排除

找不到模型目录

[错误] 找不到 Whisper 模型目录。请使用 --whisper-dir 指定,或先运行 download_models.py 下载模型。

解决: 先运行模型下载脚本:

python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models

音频文件不存在

[错误] 音频文件不存在: audio.wav

解决: 检查文件路径是否正确,使用绝对路径或相对当前工作目录的路径。

OpenVINO 推理失败

ModuleNotFoundError: No module named 'openvino_genai'

解决: 重新安装依赖:

pip install --upgrade openvino-genai

翻译质量不佳

  • 确保音频清晰,背景噪音少
  • 尝试增加 --max-tokens 参数
  • 检查音频采样率是否合适(建议 16kHz)

技术细节

模型规格

distil-whisper-large-v3-int8-ov

  • 基础模型: Distil-Whisper Large v3
  • 量化: INT8 权重压缩
  • 框架: OpenVINO IR
  • 语言: 多语言支持(专注英语)

HY-MT1.5-1.8B-int4-ov

  • 基础模型: Tencent Hunyuan MT1.5 1.8B
  • 量化: INT4 权重压缩 (group-size 128, ratio 0.8)
  • 框架: OpenVINO GenAI
  • 语言对: 支持中英互译及 30+ 语言

提示词模板

翻译时使用的提示词格式:

将以下文本翻译为中文,注意只需要输出翻译后的结果,不要额外解释:

{英文文本}

相关资源

许可证

本 Skill 使用的模型遵循各自开源许可证:

  • Distil-Whisper: MIT License
  • HY-MT1.5: Apache 2.0 License

脚本代码采用 MIT License 开源。