中国一项及时人像视频天生研讨结果当选CVPR2025国际学术会议

作者: admin 分类: 娱乐发布时间: 2025-03-22 14:55

封面消息记者欧阳宏宇近期，IEEE国际盘算机视觉与形式辨认集会（ Conference on Computer Vision and Pattern Recognition）CVPR 2025颁布论文任命成果，此中一项来自中国的将AI利用于交际范畴平台案例研讨论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion bet356亚洲版本体育Generation》（《基于自回归举措天生的及时流式音频驱动听像动画体系》）被接受。

据先容，研讨团队在论文中提出了一个新的面向及时音频驱动听像动画（即Talking Head）的自回归框架，处理了视频画面熟成耗时长的行业挑衅外，还实现了谈话时头部天生以及人体各部位活动的天然沙巴官网入口性跟真切性。该论文的念头是解构diffusion-base的模子要害步调，用LLM跟1step-diffusion停止重构，融会视频模态，使SoulX年夜模子成为同时天生笔墨、语音、视频的Unified Model。详细而言，来自Soul App的研讨团队将talking head义务分红FMLG（面部Motion天生）、ETM（高效身材Movement天生）模块。FMLG基于自回归言语模子，应用年夜模子的强盛进修才能跟高效的多样性采样才能，天生正确且多样的面部Motion。ETM则应用一步分散，天生真切的身材肌肉、饰品的活动后果。试验成果标明，比拟分散模子，该计划的视频天生效力年夜幅晋升，且从天生品质下去看，轻微举措、面部身材举措和谐度、天然度方面均有优良表示。这证实了国产交际范畴互联网技巧在推进多模态才能构建特殊是视觉层面才能冲破上获得了阶段性结果。谈及研讨团队所存眷的视觉交互逻辑，该平台CTO陶明说明称，从交互的信息庞杂度来讲，人跟人背靠背的相同是信息传布方法最快的，也是最无效的一种。“以是咱们以为在线上人机交互的进程傍边，须要有如许的表白方法。”在他看来，在多模态年夜模子才能偏向基本上，该计划的提出将有助于AI构建及时天生的“数字天下”，而且可能以活泼的数字抽象与用户停止天然的交互。公然材料表现，CVPR是人工智能范畴最具学术影响力的顶级集会之一，是中国盘算机学会（CCF）推举的A类国际学术集会。在谷歌学术指标2024年列出的寰球最有影响力的迷信期刊/集会中，CVPR位列总榜第2，仅次于Nature。依据集会官方统计，本次CVPR 2025集会总投稿13008篇，任命2878篇，任命率仅为22.1%。

[db:TAG标签](467)

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！