音频处理

同合云音频处理接口提供语音转文字(ASR)、音频降噪、静音片段移除、人声归档等能力。

通用说明

所有音频处理接口均采用异步任务模式:

  1. 上传文件:调用 文件上传 接口获取 file_id,支持音频文件(mp3、wav、m4a 等)和视频文件(mp4 等,系统自动提取音轨)。
  2. 创建任务:调用对应处理接口(POST),传入 file_id 创建任务,获取 task_id
  3. 查询结果:通过查询接口(GET)轮询任务状态,status 变为 completed 时结果可用。

接口列表

接口路径功能描述
语音转文字(ASR)/task/asr将音频转换为文字,支持多语言和字级时间戳
音频降噪/task/audio_noise_reduce降低背景噪声,提升人声清晰度
静音片段移除/task/audio_silence_remove移除音频中的静音段,使音频更紧凑
人声归档/task/audio_speaker_split识别说话人并归档为独立音轨

支持的文件格式

音频处理接口支持以下格式:mp3wavm4aaacflacogg,以及含音轨的视频文件(mp4mov 等)。

下一步