快手可灵团队携手滑铁卢大学共同发布全新统一视频基础模型 univideo,该模型首次实现视频理解、编辑与生成三大能力的一体化集成。
其核心技术架构包含两大部分:一个具备多模态感知能力的大语言模型(MLLM),用于精准解析文本指令及视觉上下文;另一个是多模态 DiT 架构(MMDiT),专责视频内容的生成与精细化编辑。该方案全面覆盖多种视频智能处理场景——支持基于文本、图像等多类型提示的视频生成;可对输入图像或视频进行深度语义理解与分析;亦能依据用户文字描述及参考图,灵活调整视频内容结构、风格特征乃至细节表现。

在实际演示中,UniVideo 展现出高度灵活性:既可通过单张图片+文本 prompt 生成全新视频,也可结合原始视频与参考图像完成定向修改,甚至仅凭自然语言 prompt 即可实现对已有视频的语义级编辑。
技术层面的重大突破在于:采用通义千问2.5 VL 模型作为“视觉大脑”,专注处理图像、视频与文本的联合理解任务;同时以混元视频模型为“创作引擎”,承担高质量视频生成与编辑工作。二者协同运作,使系统真正兼具“看得懂”与“做得好”的双重能力。
相较以往需调用多个专用模型分别完成不同子任务的传统范式,UniVideo 实现了端到端统一建模,不仅大幅降低部署复杂度,更让各项能力在训练与推理过程中彼此赋能、正向增强。
Autoppt
Autoppt:打造高效与精美PPT的AI工具
下载从实测效果来看,对于动作幅度较小、结构相对稳定的视频片段,输出质量表现优异;但部分高动态、强物理属性的场景(如火焰燃烧)仍存在优化空间,同时在细粒度一致性方面(例如发丝运动连贯性)尚有提升余地。尽管如此,瑕不掩瑜,UniVideo 在通用视频智能领域的探索极具开创性与应用潜力。
开源地址:https://www.php.cn/link/3bf47241fd8ea682509ba6b7cc875f72
源码地址:点击下载
1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。 但是现代信息社会并不能避不开国与国之间的问题。 “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...
威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。 2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。 但这对投资者而言,可能并不是一件好事。 由于身在传统电力行业,科研步伐又...
以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。 2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...
历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。 作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...
全球最大的丙氨酸生产商华恒生物,即将亮相科创资本市场。 2021年4月7日,以合成生物技术为核心,主要从事氨基酸及其衍生物产品研发、生产、销售的华恒生物,于科创板开启了路演询价环节,距离正式亮相科创板仅剩一步之遥。 图/Wind 目前,华恒生物拥有接近50%的市场占有率...
瑞华泰,一家打破“卡脖子”材料高端PI薄膜的企业,日前正在做科创资本市场的最后冲刺。 2021年4月14日,专注于高性能PI薄膜领域技术自主研发的制造商瑞华泰,已经开启路演及询价环节,距离正式科创板资本市场仅剩最后一步之遥。目前,公司已建立了完整的PI薄膜研发和产业化的核心技术体系,成功进...