Google DeepMind推出新型多塔解码器架构Zipper,它能够将多个在不同模态上独立预训练的生成模型融合在一起,创造出比单独模型更强大的多模态生成能力。简单来说,Zipper就像一个多才多艺的艺术家,能够把不同的艺术形式(比如语言、声音和图像)融合在一起,创作出新的艺术作品。论文还提到了Zipper的一些限制... 阅读全文
谷歌发布论,探讨了大语言模型(LLMs)在发展高级心理理论(Theory of Mind,ToM)方面的能力。心理理论是一种人类能力,它允许我们推理和理解自己和他人的多重心理和情感状态,并且能够递归地进行推理(例如,我认为你相信她知道)。例如,你正在开发一个虚拟助手,它需要理解用户的情感状态以提供更好的支持。如果这个虚... 阅读全文
直达链接好 0
不好 00大语言模型在发展高级心理理论(Theory of Mind,ToM)方面的能力已关闭评论
宾夕法尼亚大学、苹果和香港大学的研究人员推出新框架GECO(Generative Image-to-3D within a SECOnd),它能够在大约0.35秒内,使用单个图像作为输入,在单个L40 GPU上生成高质量的3D模型。GECO的目标是简化3D资产的生成过程,使其更加高效和易于访问,同时保持生成结果的高质量... 阅读全文