AI 软件
近日,来自剑桥、NAIST 和腾讯 AI Lab 的研究者近期发布了一项名为 PandaGPT 的研究成果,这是一种将大型语言模型与不同模态对齐、绑定以实现跨模态指令跟随能力的技术。PandaGPT 可以完成诸如生成详细的图像描述、根据视频编写故事以及回答关于音频的问题等复杂任务。它可以同时接收多模态输入,并自然地组合它们的语义。
项目主页:panda-gpt.github.io/
代码链接:https://github.com/yxuansu/PandaGPT
在线体验:https://huggingface.co/spaces/GMFTBY
PandaGPT简介
PandaGPT是由剑桥大学、奈良先端科学技术大学院大学和腾讯的研究人员共同提出并开源的通用指令遵循模型。这是首个实现了跨六种模态(图像/视频、文本、音频、深度、thermal和IMU )执行指令遵循数据的基础模型。在没有明确多模态监督的情况下, PandaGPT展现出了强大的多模态能力。
PandaGPT功能
PandaGPT的核心创新在于可以同时接受多个模态输入,并自然地组合不同模态的语义, 超越传统的单模态分析,扩展了下游应用场景,也更贴近AGI的实现方式。它可以执行复杂的理解/推理任务,如详细的图像描述生成、编写视频启发的故事、回答有关音频的问题,或是多轮对话等。
PandaGPT 仅仅是一个研究原型,目前仅允许将文本之外的模态信息用作输入。未来该模型有潜力将整个 AIGC 统一到同一个模型之中,即一个模型同时完成图像 & 视频生成、语音合成、文本生成等任务,值得期待...
5