音频处理
支持通过 WebSocket 订阅任务进度,详见 任务进度查询。
同合云音频处理接口提供语音转文字(ASR)、音频降噪、静音片段移除、人声归档、人声伴奏分离、音频变调变速、音乐分析与打标、钢琴音频转 MIDI、钢琴歌曲修复/增强等能力。
通用说明
所有音频处理接口均采用异步任务模式:
- 上传文件:调用 文件上传 接口获取
file_id,支持音频文件(mp3、wav、m4a 等)和视频文件(mp4 等,系统自动提取音轨)。 - 创建任务:调用对应处理接口(
POST),传入file_id创建任务,获取task_id。 - 查询结果:通过查询接口(
GET)轮询任务状态,status变为completed时结果可用。
接口列表
| 接口 | 路径 | 功能描述 |
|---|---|---|
| 语音转文字(ASR) | /task/asr | 将音频转换为文字,支持多语言和字级时间戳 |
| 音频降噪 | /task/audio_noise_reduce | 降低背景噪声,提升人声清晰度 |
| 静音片段移除 | /task/audio_silence_remove | 移除音频中的静音段,使音频更紧凑 |
| 人声归档 | /task/audio_speaker_split | 识别说话人并归档为独立音轨 |
| 人声伴奏分离 | /task/audio_separation | 分离人声与伴奏,输出独立音轨 |
| 音频变调变速 | /task/audio_stretch | 调整音高与播放速度,二者相互独立 |
| 音乐分析与打标 | /task/audio_music_analyze | 分析 BPM、调性、节拍、段落和可选语义标签 |
| 钢琴音频转 MIDI | /task/piano_audio_to_midi | 将钢琴音频转换为 MIDI 文件 |
| 钢琴歌曲修复/增强 | /task/piano_audio_enhance | 将钢琴音频转写并重新渲染为增强 WAV 音频 |
| 声音克隆配音 | /task/audio_tts_clone | 输入文本与艺人,生成该艺人音色的配音音频 |
支持的文件格式
音频处理接口支持以下格式:mp3、wav、m4a、aac、flac、ogg,以及含音轨的视频文件(mp4、mov 等)。