优惠新型视频生成方法Compositional 3D-aware Video Generation：通过将视频分解成不同的3D概念，并利用大语言模型来指导如何将这些概念组合成最终的视频

AI

推荐人：暴走AI 标签：视频生成 AI

2年前 (2024-09-04)AI

中国科学技术大学、微软亚洲研究院和上海交通大学的研究人员推出新型视频生成方法Compositional 3D-aware Video Generation，这个方法的核心是通过将视频分解成不同的3D概念，并利用大语言模型（LLM）来指导如何将这 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型视频理解框架VideoLLaMB：专门设计来处理和理解长时间视频内容

AI

推荐人：暴走AI 标签：VideoLLaMB AI

2年前 (2024-09-04)AI

北京通用人工智能研究院 (BIGAI)、美国加州大学圣克鲁斯分校计算机科学与工程系、北京大学王选计算机技术研究所和通用人工智能国家重点实验室的研究人员推出新型视频理解框架VideoLLaMB，这个框架专门设计来处理和理 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基于音频的端到端会话模型Mini-Omni：能够实现实时语音互动

AI

推荐人：暴走AI 标签：Mini-Omni 多模态语言模型 AI

2年前 (2024-09-03)AI

清华大学的研究人员推出多模态语言模型Mini-Omni，它能够实时地进行语音交互。想象一下，你有一个智能助手，不仅能理解你说的话，还能用语音回答你的问题，就像和真人对话一样自然。Mini-Omni就是这样一个模型，它能 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型时间序列预测方法VISIONTS：将时间序列数据视为图像，利用在图像上预训练的模型来进行预测

AI

推荐人：暴走AI 标签：VISIONTS AI

2年前 (2024-09-03)AI

浙江大学、道富科技（浙江）有限公司、Salesforce 亚洲研究中心的研究人员推出一种新型的时间序列预测方法，名为VISIONTS。时间序列预测是一种预测未来数据点的技术，这些数据点是按照时间顺序排列的，比如股票价格 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 CrossViewDiff：用于卫星图像到街景图像合成的跨视角扩散模型

AI

推荐人：暴走AI 标签：CrossViewDiff AI

2年前 (2024-09-02)AI

中山大学、上海人工智能实验室和商汤科技的研究人员推出一个名为CrossViewDiff的模型，它是一个用于卫星图像到街景图像合成的跨视角扩散模型。简单来说，这个模型能够将从高空卫星拍摄的图像转换成仿佛在地面上拍摄 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠功能强大、易于使用的开源 RAG 工具kotaemon：为最终用户提供了与文档进行交互的可能，也为开发者提供了构建和定制 RAG 管道的平台

AI

推荐人：暴走AI 标签：kotaemon RAG 工具 AI

2年前 (2024-09-02)AI

kotaemon 是一个基于检索增强生成（RAG）技术的开源工具，它允许用户与文档进行交互式对话。kotaemon 的主要目的是提供一个简洁、可定制且功能丰富的用户界面，以便用户能够在其文档上进行问答，同时也为开发者提供 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠微调大语言模型新方法CURLoRA

AI

推荐人：暴走AI 标签：CURLoRA AI

2年前 (2024-09-02)AI

这篇论文介绍了一种名为CURLoRA的新型方法，它用于对大语言模型（LLMs）进行微调。CURLoRA利用了CUR矩阵分解技术，并结合了低秩适应（LoRA）的概念。这种方法主要解决了在持续学习过程中，如何减少模型的灾难性遗忘 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠为了更好地理解和处理科学文献而设计的AI模型SciLitLLM

AI

推荐人：暴走AI 标签：SciLitLLM AI

2年前 (2024-09-02)AI

中国科学技术大学和深势科技的研究人员推出一个名为SciLitLLM的人工智能模型，它是为了更好地理解和处理科学文献而设计的。你可以把它想象成一个超级聪明的机器人，它阅读科学文章和论文的能力就像一个科学家或研究 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠文本风格转换方法StyleRemix：能够将文本重新编写，以故意模糊作者的身份

AI

推荐人：暴走AI 标签：StyleRemix AI

2年前 (2024-08-30)AI

华盛顿大学和艾伦人工智能研究所的研究人员推出文本风格转换方法StyleRemix，它能够将文本重新编写，以故意模糊作者的身份。这项技术对于保护作者隐私非常重要，尤其是在需要匿名讨论、双盲审稿或健康服务等敏感情境 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠三维重建方法Spann3R：能够从有序或无序的图像集合中重建出密集的三维几何结构

AI

推荐人：暴走AI 标签：Spann3R AI

2年前 (2024-08-30)AI

伦敦大学学院的研究人员推出三维重建方法Spann3R，它能够从有序或无序的图像集合中重建出密集的三维几何结构。这个方法的核心在于使用一个基于变换器（transformer）的架构，直接从图像中回归点图（pointmap），而不 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 SAM2POINT系统：用于三维（3D）分割的先进框架

AI

推荐人：暴走AI 标签：SAM2POINT AI

2年前 (2024-08-30)AI

香港中文大学MiuLar实验室、香港中文大学MMLab、字节跳动和上海人工智能实验室的研究人员推出SAM2POINT系统，它是一个用于三维（3D）分割的先进框架。三维分割是指在三维空间中识别和区分不同对象或场景的过程，类似 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型音频编码模型WavTokenizer：能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理

AI

推荐人：暴走AI 标签：WavTokenizer AI

2年前 (2024-08-30)AI

浙江大学、阿里巴巴集团和Meta的研究人员推出新型音频编码模型WavTokenizer，它能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理。简单来说，WavTokenizer就像是 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

AI

优惠新型视频生成方法Compositional 3D-aware Video Generation：通过将视频分解成不同的3D概念，并利用大语言模型来指导如何将这些概念组合成最终的视频

优惠新型视频理解框架VideoLLaMB：专门设计来处理和理解长时间视频内容

优惠基于音频的端到端会话模型Mini-Omni：能够实现实时语音互动

优惠新型时间序列预测方法VISIONTS：将时间序列数据视为图像，利用在图像上预训练的模型来进行预测

优惠 CrossViewDiff：用于卫星图像到街景图像合成的跨视角扩散模型

优惠功能强大、易于使用的开源 RAG 工具kotaemon：为最终用户提供了与文档进行交互的可能，也为开发者提供了构建和定制 RAG 管道的平台

优惠微调大语言模型新方法CURLoRA

优惠为了更好地理解和处理科学文献而设计的AI模型SciLitLLM

优惠文本风格转换方法StyleRemix：能够将文本重新编写，以故意模糊作者的身份

优惠三维重建方法Spann3R：能够从有序或无序的图像集合中重建出密集的三维几何结构

优惠 SAM2POINT系统：用于三维（3D）分割的先进框架

优惠新型音频编码模型WavTokenizer：能够高效地将自然信号如语音、音乐和普通音频压缩成低维度的离散标记（tokens），以便于语言模型处理