FunClip是一款完全开源、本地部署的自动化视频剪辑工具,利用阿里巴巴 TONGYI 语音实验室开源的FunASR Paraformer 系列模型对视频进行语音识别,然后用户可以在识别结果中自由选择文本片段或说话人,点击剪辑按钮即可获得所选片段对应的视频片段
体验地址
本地搭建
访问地址:https://github.com/modelscope/FunClip?tab=readme-ov-file#install
使用 FunClip
步骤 1:上传您的视频文件(或尝试下面的示例视频)
步骤2:将您需要的文本片段复制到“文本到剪辑”
步骤3:调整字幕设置(如需要)
步骤4:点击“剪辑”或“剪辑并生成字幕”
工具亮点
- 现在尝试使用 FunClip 中的 LLM 进行 AI 剪辑。
- FunClip 集成了阿里巴巴开源工业级模型Paraformer-Large,该模型是目前性能最优的开源中文语音识别模型之一,在 Modelscope 上的下载量超过 1300 万次,并能以集成的方式精准预测时间戳。
- FunClip 整合了SeACo-Paraformer的热词自定义功能,允许用户在 ASR 过程中指定某些实体词、名称等作为热词,以增强识别结果。
- FunClip 集成了CAM++说话人识别模型,用户可以使用自动识别的说话人 ID 作为修剪的目标,从特定说话人中剪辑片段。
- 功能通过 Gradio 交互实现,安装简单,使用方便,也可部署在服务器上,通过浏览器访问。
- FunClip支持多片段自由剪辑,并自动返回全视频SRT字幕和目标片段SRT字幕,提供简单便捷的用户体验。
新功能
- 2024/06/12 FunClip 现已支持识别并剪辑英文音频文件,快来python funclip/launch.py -l en试试吧。
- 2024/05/13 FunClip v2.0.0 现已支持大语言模型智能剪辑,整合qwen系列、GPT系列等模型,提供默认提示。你也可以探索和分享设置提示的技巧,使用方法如下:
识别后选择大模型名称,配置自己的apikey;
点击‘LLM 推理’按钮,FunClip 会自动将两个提示与视频的 srt 字幕结合起来;
点击‘AI剪辑’按钮,FunClip会根据上一步的大语言模型的输出结果,提取需要剪辑的时间戳;
您可以尝试改变提示以利用大型语言模型的功能来获得您想要的结果;
2024/05/09 FunClip 更新至 v1.1.0,包含以下更新与修复:
支持输出文件目录配置,保存ASR中间结果和视频剪辑中间文件;
UI升级(见下方引导图),视频与音频剪裁功能在同一页面,按钮位置调整;
修复了由于FunASR接口升级引入的一个bug,该bug导致了严重的剪辑错误;
支持为每个段落配置不同的开始和结束时间偏移;
代码更新等;
- 2024/03/06 修复使用命令行使用 FunClip 的 bug。
- 2024/02/28 FunASR更新至1.0版本,使用FunASR1.0与SeACo-Paraformer进行自定义启动词ASR。
- 2023/10/17 修复选择多个时段时返回错误长度的视频的问题。
- 2023/10/10 FunClipper 现在支持使用说话人分类功能进行识别,在“识别说话人”中选择“是”按钮,您将获得带有每个句子说话人 ID 的识别结果。然后您可以使用 FunClipper 剪掉一个或多个说话人的句号(例如“spk0”或“spk0#spk3”)。