AI 软件

PandaGPT-支持文本、视频、音频、深度、热量和IMU6种模态。

文 :管理员 来源 :原创 阅读 :532 1年前

近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义

PandaGPT-支持文本、视频、音频、深度、热量和IMU6种模态。

项目主页:panda-gpt.github.io/

代码链接:https://github.com/yxuansu/PandaGPT

在线体验https://huggingface.co/spaces/GMFTBY


图片


PandaGPT简介


PandaGPT是由剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源的通用指令遵循模型。这是首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU )执行指令遵循数据的基础模型。在没有明确多模态监督的情况下, PandaGPT展现出了强大的多模态能力。


PandaGPT-支持文本、视频、音频、深度、热量和IMU6种模态。


PandaGPT功能


PandaGPT的核心创新在于可以同时接受多个模态输入,并自然地组合不同模态的语义, 超越传统的单模态分析,扩展了下游应用场景,也更贴近AGI的实现方式。它可以执行复杂的理解/推理任务,如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题,或是多轮对话等。


PandaGPT-支持文本、视频、音频、深度、热量和IMU6种模态。

PandaGPT 仅仅是一个研究原型目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务,值得期待...

4f9e0a7f1c788266ff43e18e3ae4c767_the-end.png

点赞

5

免责声明
  • 本站提供的所有内容仅供学习、分享、交流,如有侵犯您的合法权益,请联系我们处理。本站所有留言、评论属于内容发布者,与本站观点及立场无关!

随机推荐

极度精简!开发者推出仅需要3GB硬盘空间的Windows 11(仅供测试)
« 上一篇 11-03
Retouch4me 套件:PS人像自动精修插件
下一篇 » 08-03

评论

共0条评论
  • 这篇文章评论空空如也,赶紧来抢沙发吧~


© 2021-2027 Powered By YzmCMS
蜀ICP备 2021015236 号 萌ICP备20242886号
相关侵权、投诉及建议等,请发E-mail:1476705828@qq.com。

友情链接: YzmCMS官方网站 YzmCMS博客