视频处理

支持通过 WebSocket 订阅任务进度，详见任务进度查询。

同合云视频处理接口提供智能字幕、机械分镜、智能分镜、运镜分析、去黑边、比例转换、帧插值、超分辨率、视频稳像、去水印、蒸汽波滤镜、工程文件生成、时间线渲染、智能口播剪辑及长剪短等能力。

通用说明

所有视频处理接口均采用异步任务模式：

上传文件：调用文件上传接口获取 file_id。
创建任务：调用对应处理接口（POST），传入 file_id 创建任务，获取 task_id。
查询结果：通过查询接口（GET）轮询任务状态，status 变为 completed 时结果可用。

💡 提示：视频处理任务耗时通常较长，建议每隔 5-10 秒轮询一次。

接口列表

接口	路径	功能描述
智能字幕	`/task/video_ai_subtitle`	自动识别语音并生成字幕，支持翻译和多种字幕样式
视频机械分镜	`/task/video_segment`	基于画面变动率识别镜头边界，可返回分镜区间或切片文件
视频智能分镜	`/task/video_ai_segment`	基于多模态语义理解进行镜头切分与结构化归类
视频运镜分析	`/task/video_motion_cut`	检测视频中具有明显动作或运镜的高光区间，返回纯结构化结果
去除黑边	`/task/video_blackborder_remove`	自动检测并去除视频四周黑边
视频抠像	`/task/video_matting`	无绿幕人物视频抠像，输出透明背景视频（WebM/VP9 alpha）
比例转换	`/task/video_canvas_adapt`	将视频转换为指定尺寸，支持片段截取
智能分屏布局生成	`/task/video_split_screen`	将 2-16 个视频片段按共享布局模板合成为分屏视频
视频插帧	`/task/video_interpolate`	AI 帧插值，提升视频流畅度（最长 1 分钟）
去水印	`/task/video_purify`	去除视频中的水印、Logo 或字幕
视频稳像	`/task/video_stabilizer`	防抖处理，使画面更稳定
视频超分	`/task/video_upscale`	AI 超分辨率放大，提升视频清晰度
蒸汽波滤镜	`/task/video_vaporwave`	为视频添加 Vaporwave 风格滤镜效果
工程文件生成	`/task/video_project_struct`	将时间线结构转换为 Premiere/FCPX/OTIO/剪映/CapCut 工程文件（无需上传文件）
视频时间线渲染	`/task/video_timeline_render`	将时间线结构直接渲染为成片 mp4（与工程文件生成共用时间线模型）
HTML 动画渲染（整轨）	`/task/html_animate_render`	长视频底轨贯穿 + 透明 HTML 动画颗粒叠加（不挡主体）合成为成片 mp4
HTML 动画渲染（单点）	`/task/html_render_simple`	视频底轨 + 自定义 HTML 动画颗粒单点合成为成片 mp4（不透明全屏切入 / 短 / 纯 HTML 动画）
智能口播剪辑	`/task/video_oral_cut`	口播毛片一键智能剪辑：去错读重读、保留最后一次读顺、气口与标点节奏整形
长剪短	`/task/video_long2short`	长内容按语义抽多条不同主题高光短片：语义选段 + 跳剪 + 字级精确切点（粗剪）
长剪短（精剪）	`/task/video_long2short_pro`	在粗剪内核上叠加模糊底画布适配 / 克制运镜 / 调速保音高 / 智能字幕，一键直接出成品片
音视频说话人检测	`/task/video_speaker_detect`	检测可见说话人，内部融合 ASR、视觉轨迹与句子归因
视频素材检索（智能剪辑）	`/task/video_clip_search`	按描述/关键词检索可剪辑的视频素材片段，返回片内时间段（同步检索，非异步任务）

支持的文件格式

视频处理接口支持：mp4、mov、avi、mkv、flv、webm 等常用格式。

注意事项

视频插帧：当前实现会校验输出单边分辨率不能超过 4000 px。
视频机械分镜：默认仅返回结构化分镜结果；设置 only_struct=false 时会额外输出切片文件。
视频智能分镜：支持 scene、shot_type、narrative、subject 四种模式，长视频会自动分片分析并合并结果。
视频运镜分析：当前固定使用 OpenCVMotionCut 引擎，不开放模式选择，接口始终只返回结构化结果，不生成切片文件。
视频去水印：支持 ffmpeg 与 raft 两种算法、full_screen / subtitle / custom 三种净化范围；其中 raft 为神经网络修复模式，仅支持 20 分钟以内 视频。
视频超分：当前实现仅支持 1 分钟以内的视频，且放大后的单边分辨率不能超过 4000 px。

下一步

音视频说话人检测：公开结果返回采样轨迹，内部帧级 _frame_table 与 frame_details 不对外透出。detect_body=true 时会额外返回人体框。
文件管理
图片处理
音频处理