AI
优惠 新型视频理解框架VideoLLaMB:专门设计来处理和理解长时间视频内容
标签:VideoLLaMB
AI
12个月前 (09-04)AI
北京通用人工智能研究院 (BIGAI)、美国加州大学圣克鲁斯分校计算机科学与工程系、北京大学王选计算机技术研究所和通用人工智能国家重点实验室的研究人员推出新型视频理解框架VideoLLaMB,这个框架专门设计来处理和理解长时间视频内容,它通过一种特别的方式来编码整个视频序列,同时保留历史视觉数据,以此来提高模型在各种任... 阅读全文
优惠 CrossViewDiff:用于卫星图像到街景图像合成的跨视角扩散模型
标签:CrossViewDiff
AI
12个月前 (09-02)AI
中山大学、上海人工智能实验室和商汤科技的研究人员推出一个名为CrossViewDiff的模型,它是一个用于卫星图像到街景图像合成的跨视角扩散模型。简单来说,这个模型能够将从高空卫星拍摄的图像转换成仿佛在地面上拍摄的街景图像。 项目主页:https://opendatalab.github.io/CrossViewDif... 阅读全文
优惠 文本风格转换方法StyleRemix:能够将文本重新编写,以故意模糊作者的身份
标签:StyleRemix
AI
12个月前 (08-30)AI
华盛顿大学和艾伦人工智能研究所的研究人员推出文本风格转换方法StyleRemix,它能够将文本重新编写,以故意模糊作者的身份。这项技术对于保护作者隐私非常重要,尤其是在需要匿名讨论、双盲审稿或健康服务等敏感情境中。总的来说,StyleRemix是一个强大的工具,它通过精细的风格元素控制和低计算成本,为用户提供了一种有效... 阅读全文
优惠 新型音频编码模型WavTokenizer:能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理
标签:WavTokenizer
AI
12个月前 (08-30)AI
浙江大学、阿里巴巴集团 和Meta的研究人员推出新型音频编码模型WavTokenizer,它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记(tokens),以便于语言模型处理。简单来说,WavTokenizer就像是一个音频界的“压缩器”,能够把一段音频变成一串代码,这些代码既占用空间小,又能在需要的... 阅读全文