视频处理
支持通过 WebSocket 订阅任务进度,详见 任务进度查询。
同合云视频处理接口提供智能字幕、机械分镜、智能分镜、运镜分析、去黑边、比例转换、帧插值、超分辨率、视频稳像、去水印、蒸汽波滤镜、工程文件生成、时间线渲染、智能口播剪辑及长剪短等能力。
通用说明
所有视频处理接口均采用异步任务模式:
- 上传文件:调用 文件上传 接口获取
file_id。 - 创建任务:调用对应处理接口(
POST),传入file_id创建任务,获取task_id。 - 查询结果:通过查询接口(
GET)轮询任务状态,status变为completed时结果可用。
💡 提示:视频处理任务耗时通常较长,建议每隔 5-10 秒轮询一次。
接口列表
| 接口 | 路径 | 功能描述 |
|---|---|---|
| 智能字幕 | /task/video_ai_subtitle | 自动识别语音并生成字幕,支持翻译和多种字幕样式 |
| 视频机械分镜 | /task/video_segment | 基于画面变动率识别镜头边界,可返回分镜区间或切片文件 |
| 视频智能分镜 | /task/video_ai_segment | 基于多模态语义理解进行镜头切分与结构化归类 |
| 视频运镜分析 | /task/video_motion_cut | 检测视频中具有明显动作或运镜的高光区间,返回纯结构化结果 |
| 去除黑边 | /task/video_blackborder_remove | 自动检测并去除视频四周黑边 |
| 视频抠像 | /task/video_matting | 无绿幕人物视频抠像,输出透明背景视频(WebM/VP9 alpha) |
| 比例转换 | /task/video_canvas_adapt | 将视频转换为指定尺寸,支持片段截取 |
| 智能分屏布局生成 | /task/video_split_screen | 将 2-16 个视频片段按共享布局模板合成为分屏视频 |
| 视频插帧 | /task/video_interpolate | AI 帧插值,提升视频流畅度(最长 1 分钟) |
| 去水印 | /task/video_purify | 去除视频中的水印、Logo 或字幕 |
| 视频稳像 | /task/video_stabilizer | 防抖处理,使画面更稳定 |
| 视频超分 | /task/video_upscale | AI 超分辨率放大,提升视频清晰度 |
| 蒸汽波滤镜 | /task/video_vaporwave | 为视频添加 Vaporwave 风格滤镜效果 |
| 工程文件生成 | /task/video_project_struct | 将时间线结构转换为 Premiere/FCPX/OTIO/剪映/CapCut 工程文件(无需上传文件) |
| 视频时间线渲染 | /task/video_timeline_render | 将时间线结构直接渲染为成片 mp4(与工程文件生成共用时间线模型) |
| HTML 动画渲染(整轨) | /task/html_animate_render | 长视频底轨贯穿 + 透明 HTML 动画颗粒叠加(不挡主体)合成为成片 mp4 |
| HTML 动画渲染(单点) | /task/html_render_simple | 视频底轨 + 自定义 HTML 动画颗粒单点合成为成片 mp4(不透明全屏切入 / 短 / 纯 HTML 动画) |
| 智能口播剪辑 | /task/video_oral_cut | 口播毛片一键智能剪辑:去错读重读、保留最后一次读顺、气口与标点节奏整形 |
| 长剪短 | /task/video_long2short | 长内容按语义抽多条不同主题高光短片:语义选段 + 跳剪 + 字级精确切点(粗剪) |
| 长剪短(精剪) | /task/video_long2short_pro | 在粗剪内核上叠加 模糊底画布适配 / 克制运镜 / 调速保音高 / 智能字幕,一键直接出成品片 |
| 音视频说话人检测 | /task/video_speaker_detect | 检测可见说话人,内部融合 ASR、视觉轨迹与句子归因 |
| 视频素材检索(智能剪辑) | /task/video_clip_search | 按描述/关键词检索可剪辑的视频素材片段,返回片内时间段(同步检索,非异步任务) |
支持的文件格式
视频处理接口支持:mp4、mov、avi、mkv、flv、webm 等常用格式。
注意事项
- 视频插帧:当前实现会校验输出单边分辨率不能超过 4000 px。
- 视频机械分镜:默认仅返回结构化分镜结果;设置
only_struct=false时会额外输出切片文件。 - 视频智能分镜:支持
scene、shot_type、narrative、subject四种模式,长视频会自动分片分析并合并结果。 - 视频运镜分析:当前固定使用
OpenCVMotionCut引擎,不开放模式选择,接口始终只返回结构化结果,不生成切片文件。 - 视频去水印:支持
ffmpeg与raft两种算法、full_screen/subtitle/custom三种净化范围;其中raft为神经网络修复模式,仅支持 20 分钟以内 视频。 - 视频超分:当前实现仅支持 1 分钟以内的视频,且放大后的单边分辨率不能超过 4000 px。