视觉语言模型

谷歌发布全球最大视觉语言模型

近日,来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型 PaLM-E(全称 Pathways Language Model with Embodied)。作为一种多模态具身视觉语言模型 (VLM),PaLM-E 能将视觉和语言集成到机器人控制中。谷歌和柏林工业大学称,PaLM-E 是迄今为止人类开发的最大规模 VLM,其可以在不需要再训练的情况下执行各种任务。此外,通过