音频处理
同合云音频处理接口提供语音转文字(ASR)、音频降噪、静音片段移除、人声归档等能力。
通用说明
所有音频处理接口均采用异步任务模式:
- 上传文件:调用 文件上传 接口获取
file_id,支持音频文件(mp3、wav、m4a 等)和视频文件(mp4 等,系统自动提取音轨)。 - 创建任务:调用对应处理接口(
POST),传入file_id创建任务,获取task_id。 - 查询结果:通过查询接口(
GET)轮询任务状态,status变为completed时结果可用。
接口列表
| 接口 | 路径 | 功能描述 |
|---|---|---|
| 语音转文字(ASR) | /task/asr | 将音频转换为文字,支持多语言和字级时间戳 |
| 音频降噪 | /task/audio_noise_reduce | 降低背景噪声,提升人声清晰度 |
| 静音片段移除 | /task/audio_silence_remove | 移除音频中的静音段,使音频更紧凑 |
| 人声归档 | /task/audio_speaker_split | 识别说话人并归档为独立音轨 |
支持的文件格式
音频处理接口支持以下格式:mp3、wav、m4a、aac、flac、ogg,以及含音轨的视频文件(mp4、mov 等)。