「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文环球热点-亚洲资本网

亚洲资本网 > 栏目首页 > 思维 > 正文

「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文环球热点

2023-05-28 13:12:59来源： ZAKER科技

多模态大模型，终于迎来 " 大一统 " 时刻！

从声音、文字、图像到视频，所有模态被彻底打通，如同人脑一般，实现了真正意义上的任意输入，任意输出。

(资料图)

要知道，多模态一直是学术界公认要达到更强智能的必经之路，连GPT-4都在往这个方向发展。

也正是因此，这项来自微软、北卡罗来纳大学教堂山分校的新研究一经 po 出，立即在社交媒体上爆火，有网友惊叹：

这是我最近见过最不可思议的一篇论文！

究竟有多不可思议？

只需告诉大模型，想要 " 一只玩滑板的泰迪熊 "，并输入一张照片 + 一段声音：

它立刻就能精准 get 要点，生成一段在下雨天在城市里玩滑板的心碎小熊录像，仔细听还会发现配上了新的雨声：

效果太过于鹅妹子嘤，以至于不少网友表示 " 有被吓到 "：

还有网友感叹 " 新时代的到来 "：

等不及看到创作者们用这些 AI 工具制作各种沉浸式故事体验了。这简直给 RPG 角色扮演游戏赋予了全新的意义。

值得一提的是，一作 Zineng Tang 虽然本科还没毕业，但他已经在 CVPR、发了 6 篇顶会论文，其中5 篇都是一作。

所以，这个号称能够 " 转一切 "（any-to-any）的大一统大模型，实现效果究竟如何？

4 种模态随意选，打出 " 组合拳 "

大模型 CoDi，具有任意输入和输出图、文、声音、视频 4 种模态的能力。

无论是单模态生成单模态（下图黄）、多模态生成单模态（下图红）、还是多模态生成多模态（下图紫），只要指定输入和输出的模态，CoDi 就能理解并生成想要的效果：

先来看单模态生成单模态。

输入任意一种模态，CoDi 都能联想并输出指定的模态，例如，输入一张风景图像，就能输出 " 山景，日出 " 这样的文字提示词：

或是输入一段铁轨碰撞声，就能生成一张地铁图像：面对多模态生成单模态时，CoDi 威力同样不减。

输入一张 " 熊猫吃竹子 " 图像，加上一段 " 在咖啡桌上吃 " 的文字要求：

CoDi 就能生成一段大熊猫坐在咖啡桌旁吃竹子的视频：或是输入一组文字提示词 " 油画，恐怖画风，优雅复杂的概念艺术，克雷格 · 穆林斯（CG 绘画之父）风格 "，加上一段拍打木板的水声：

CoDi 在经过联想后，就能输出一张精致的、气势恢宏的黄昏时分海盗船画像：

最后来看看多模态生成多模态的效果。

给 CoDi 提供一段钢琴声，加上一张森林中的照片：

CoDi 就能想象出一段 " 在森林中弹钢琴 " 的文字，并配上对应的插图：要知道在这之前，AI 生成的视频不少都没有配音，停留在老式的 " 无声电影 " 阶段。

然而 CoDi 不仅能生成视频，还能生成搭配视频食用的声音。

例如根据一个 " 天空中的花火 " 文字提示词 + 一段对应的音频，就能生成一个带有爆炸声音的烟花录像：

所以，CoDi 究竟是如何做到理解不同的模态，并 " 打出组合拳 " 的？

用 " 对齐 " 来节省大模型训练数据

事实上，CoDi 的打造面临两个难点。

首先是缺少训练数据的问题，以作者们能收集到的数据集为例：

无论是像 Laion400M 这样的文图数据集、还是像 AudioSet 之类的音频文字数据集，或是油管上的图像音视频数据集，以及 Webvid10M 之类的视频数据集，都属于 " 单模态生成单个或两个模态 " 的类型。

然而，多模态大模型的训练数据需求，随着模态数量的增加呈指数级增长，许多输入输出组合，往往缺少对应的训练数据集。

其次，已有的扩散模型大多是 1v1 的类型，如何设计并训练模型，确保多模态输入输出的效果，同样是个问题。

针对这两个问题，作者们决定分两个阶段打造 CoDi，让它不仅能实现单模态 " 完美输出 "、还能做到多模态 "1+1>2"。

在阶段一，组合条件训练，给每个模态都打造一个潜在扩散模型（LDM），进行组合训练。

针对 A 模态生成 B 模态数据集缺失的问题，作者们提出了一种名为桥接对齐（Bridging Alignment）的策略。

具体来说，就是以带文本模态的数据集为 " 中介 "，对齐另外几种模态的训练效果。

以音频生成图像为例。

虽然音频生成图像数据集不多，但文本生成音频、文本生成图像的数据集却有不少，因此可以将这两类数据集合并起来，用于训练文本 + 音频生成图像的效果。

在此期间，文本和音频输入经过模型处理，会被 " 放置 " 进一个共享特征空间，并用输出 LDM 来处理输入输入的组合特征，输出对应的图像结果。

阶段二，进一步增加生成的模态数量。

在阶段一的基础上，给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块，就能将潜在扩散模型的潜变量投射到共享空间中，使得生成的模态也进一步多样化。

最终训练出来的模型，虽然训练数据类型不是 " 全能的 "，但也具备了多模态输入、多模态输出的能力。值得一提的是，可别以为这种方法会降低模型生成的质量。

事实上，在多种评估方法上，CoDi 均超越了现有多模态大模型的生成效果。

华人本科生，5 篇顶会论文一作

一作Zineng Tang，本科就读于北卡罗来纳大学教堂山分校，也是微软研究院的实习生，今年 6 月将进入加州大学伯克利分校读博。

他的研究兴趣在于多模态学习、机器学习和 NLP 领域，而从大一开始，他就在 NeurIPS、CVPR、ACL 和 NAACL 等顶会上相继发了 6 篇文章，其中 5 篇一作。

就在今年 1 月，Zineng Tang 还获得了 2023 年的美国计算机研究学会（CRA）设立的优秀本科生研究员奖。

每年全美国能获得这个奖项的本科生，只有 4 人。

这一奖项旨在表彰在计算机研究领域有杰出研究潜力的本科生，包括 MIT、斯坦福、哈佛和耶鲁大学等不少北美名校在内，每年都会提名一些优秀学生，经过层层筛选后决定获奖者。

通讯作者Ziyi Yang，目前是微软 Azure 认知服务研究团队（CSR）的高级研究员，研究方向是多模态理解和生成，文档智能和 NLP 等。

在加入微软之前，他本科毕业于南京大学物理系，并于斯坦福大学获得电气工程硕士和机械工程博士学位。

通讯作者Mohit Bansal，是北卡罗来纳大学教堂山分校计算机系教授。他于加州大学伯克利分校获得博士学位，目前研究方向是 NLP 和多模态机器学习，尤其侧重语言生成问答和对话、以及可解释深度学习等。

你感觉多模态大模型发展的下一阶段，会是什么样子？

论文地址：

https://arxiv.org/abs/2305.11846

项目地址：

https://github.com/microsoft/i-Code/tree/main/i-Code-V3

参考链接：

[ 1 ] https://twitter.com/AviSchiffmann/status/1660771055676588033

[ 2 ] https://twitter.com/ZinengTang/status/1660726736642887681

[ 3 ] https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/

[ 4 ] https://codi-gen.github.io/

关键词：

相关新闻

【环球时快讯】德国企业开发浅吃水船保障内河航运

【环球时快讯】德国企业开发浅吃水船保障内河航运

素食菜的做法大全（素食菜谱大全带图片）

素食菜的做法大全（素食菜谱大全带图片）

专题新闻

热点新闻

工业生产保持恢复态势全球快播

工业生产保持恢复态势全球快播

前沿资讯!新华全媒+｜直通未来中关村论坛上领略前沿科技的魅力

前沿资讯!新华全媒+｜直通未来中关村论坛上领略前沿科技的魅力

中关村论坛VLOG｜元宇宙会场机械臂 XR演播室欢迎来到未来世界环球快资讯

中关村论坛VLOG｜元宇宙会场机械臂 XR演播室欢迎来到未来世界环球快资讯

世界热资讯！传统产业的新发展

世界热资讯！传统产业的新发展

世界新动态：多项税收数据反映经济运行向好

世界新动态：多项税收数据反映经济运行向好

天天快看：宁夏聚力新兴产业推动经济转型

天天快看：宁夏聚力新兴产业推动经济转型

北京加快推动建设具国际影响力互联网3.0创新高地

北京加快推动建设具国际影响力互联网3.0创新高地

“安全”何以就绪？业界人士共话数据安全产业高质量发展

“安全”何以就绪？业界人士共话数据安全产业高质量发展

浙江：科技创新催生产业蝶变

浙江：科技创新催生产业蝶变

数字经济推动中国制造加快绿色转型

数字经济推动中国制造加快绿色转型

大家都在看

最近更新

「大一统」大模型论文爆火，4 种模态任意输入输出，华人本科生 5 篇顶会一作，网友：近期最不可思议的论文环球热点

仰韶举旗，四“融”一体，中国白酒黄淮核心产区再发最强音！

关注儿童健康成长苏州高新区横山社区儿童友好社区建设启动

相城区3.45万亩小麦迎丰收预计总产量比去年增长10%以上焦点资讯

“七彩便民服务”进社区物业通信行业共建

30年了，他凭什么能一直hold住李嘉诚？

龙图光罩科创板IPO获受理，本次拟募资6.63亿元

邓正红能源软实力：各类影响因素交织油价波动似乎陷入了混沌无序的状态_每日简讯

每日观点：临沂一国企领导接受有偿陪侍，纪委监委已介入

汽车龙头估值创近三年新低，外资出手超5亿元力挺！国际原油连涨两周，“聪明资金”加仓能源行业

一年级作息时间安排表ppt_一年级作息时间安排表

焦点热文：高考倒计时十天：防疫政策有调整多地首次配备智能安检门

面向AI大模型的智算中心网络演进白皮书（2023年）

当前速读：全球云游戏产业深度观察及趋势研判研究报告（2023年）

30年了，他凭什么能一直hold住李嘉诚？-环球热门

全球要闻：龙图光罩科创板IPO获受理，本次拟募资6.63亿元

邓正红能源软实力：各类影响因素交织油价波动似乎陷入了混沌无序的状态

微信交易买了个电动车花了7000然后他发了个跟自己讲述的完全不一样

【环球时快讯】德国企业开发浅吃水船保障内河航运

要闻：车停在家小区里被他人恶意划了两条长条怎么办车是奔驰车系列

友情链接

新闻发布平台 |科极网 |环球周刊网 |中国创投网 |教体产业网 |中国商界网 |万能百科 |薄荷网 |资讯_时尚网 |连州财经网 |剧情啦 |5元服装包邮 |中华网河南 |网购省钱平台 |海淘返利 |太平洋装修网 |励普网校 |九十三度白茶网 |商标注册 |专利申请 |启哈号 |速挖投诉平台 |深度财经网 |深圳热线 |财报网 |财报网 |财报网 |咕噜财经 |太原热线 |电路维修 |防水补漏 |水管维修 |墙面翻修 |旧房维修 |参考经济网 |中原网视台 |财经产业网 |全球经济网 |消费导报网 |外贸网 |重播网 |国际财经网 |星岛中文网 |手机测评 |品牌推广 |名律网 |项目大全 |整形资讯 |整形新闻 |美丽网 |佳人网 |税法网 |法务网 |法律服务 |法律咨询 |成报网 |媒体采购网 |聚焦网 |参考网 |热点网

亚洲资本网版权所有

京ICP备2021034106号-51

Copyright © 2011-2020 亚洲资本网 All Rights Reserved. 联系网站：55 16 53 8 @qq.com