优惠微软推出大型信息丰富的网络数据集MS MARCO Web Search

AI

推荐人：暴走AI 标签：MS MARCO Web Search 微软 AI

1天前AI

微软推出大型信息丰富的网络数据集MS MARCO Web Search，它包含了数百万真实点击的查询-文档标签。这个数据集是首次尝试，旨在模拟现实世界中的网页文档和查询分布，为各种类型的下游任务提供丰富的信息，并鼓励在多个研究领域进行创新，例如通用的端到端神经索引器模型、通用嵌入模型，以及使用大型语言模型的下一代信息访... 阅读全文

直达链接好 0 不好 0 0

优惠 Hugging Face推出具有8亿参数的视觉-语言模型Idefics2

AI

推荐人：暴走AI 标签：Idefics2 AI

1天前AI

这篇论文的主题是关于构建视觉-语言模型（Vision-Language Models，简称VLMs）。这类模型结合了图像处理和自然语言处理的能力，能够理解图像内容并根据图像内容生成文字描述，或者根据文字描述找到相关的图像。论文中提到的Idefics2模型就是一个具有8亿参数的视觉-语言模型，它在多种多模态基准测试中表现... 阅读全文

直达链接好 0 不好 0 0

优惠浙江大学和字节跳动的研究人员推出新颖框架Coin3D：用于生成可控且交互式的3D资产

AI

推荐人：暴走AI 标签：Coin3D 字节跳动浙江大学 AI

1天前AI

浙江大学和字节跳动的研究人员推出新颖框架Coin3D，它用于生成可控且交互式的3D资产。Coin3D的核心思想是使用由基本形状（如球体、立方体、圆柱体等）组成的粗糙代理（proxy）来引导3D对象的生成，从而实现对生成过程的精细控制。这就像我们用乐高积木搭建模型一样，可以通过组合简单的积木来创造出复杂的结构。例如，一... 阅读全文

直达链接好 0 不好 0 0

优惠亚马逊AWS推出新型大型多模态语言模型SpeechVerse：能够理解和执行自然语言指令，处理各种语音相关的任务

AI

推荐人：暴走AI 标签：SpeechVerse 多模态语言模型 AI

1天前AI

亚马逊AWS推出新型大型多模态语言模型SpeechVerse，它能够理解和执行自然语言指令，处理各种语音相关的任务。SpeechVerse通过结合预训练的语音和文本基础模型，并在学习过程中保持这些模型的参数固定，实现了这一功能。它使用从语音基础模型中提取的连续潜在表示来进行指令微调，以在多种语音处理任务上实现最佳的零样... 阅读全文

直达链接好 0 不好 0 0

优惠 SpeechGuard：集成语音和大语言模型（SLMs）的安全性和鲁棒性

AI

推荐人：暴走AI 标签：SpeechGuard AI

1天前AI

亚马逊AWS发布论文探讨集成语音和大语言模型（SLMs）的安全性和鲁棒性。SLMs是一类能够遵循语音指令并生成相关文本回答的AI系统，它们在最近变得越来越流行。然而，这些模型的安全防护和抵御恶意攻击的能力还不是很清楚。主要功能： SLMs能够处理语音输入，并据此生成文本回答。它们被设计来遵循用户的语音指令。主要特... 阅读全文

直达链接好 0 不好 0 0

优惠在线（online）和离线（offline）对齐算法在人工智能（AI）领域中的表现差异

AI

推荐人：暴走AI 标签：对齐算法 AI

1天前AI

谷歌发布论文探讨在线（online）和离线（offline）对齐算法在人工智能（AI）领域中的表现差异。对齐算法是帮助AI系统更好地符合人类意图和偏好的一类算法。想象一下，你正在教一个AI助手如何更好地理解你的需求，比如通过反馈告诉它哪些回答是有帮助的，哪些不是。在线算法就是在你提供反馈时实时学习并调整的，而离线算法则... 阅读全文

直达链接好 0 不好 0 0

优惠 Beyond Scaling Laws：探讨Transformer模型在语言处理任务中的表现，特别是它们在记忆训练样本时的性能动态

AI

推荐人：暴走AI 标签：Beyond Scaling Laws AI

1天前AI

华为发布论文探讨Transformer模型在语言处理任务中的表现，特别是它们在记忆训练样本时的性能动态。论文提出了一个理论框架，用于解释基于Transformer的语言模型的记忆力过程和性能表现。研究的核心问题是，为什么增加Transformer模型的大小并不总是导致性能提升，以及这些模型是如何通过记忆训练样本来提高泛... 阅读全文

直达链接好 0 不好 0 0

优惠华为诺亚方舟实验室推出轻量级视频理解网络SqueezeTime：专为移动设备上的视频理解任务设计

AI

推荐人：暴走AI 标签：SqueezeTime AI

1天前AI

华为诺亚方舟实验室推出一种新型的轻量级视频理解网络SqueezeTime，专为移动设备上的视频理解任务设计。在移动设备上进行视频分析面临着计算能力和内存的严格限制，而传统的视频理解方法，如3D卷积网络，通常需要大量的计算和内存资源，不适合在移动设备上运行。总的来说，SqueezeTime为移动设备上的视频理解提供了一种... 阅读全文

直达链接好 0 不好 0 0

优惠小多科技推出新型多模态视觉语言模型Xmodel-VLM

AI

推荐人：暴走AI 标签：Xmodel-VLM 小多科技 AI

1天前AI

小多科技推出新型多模态视觉语言模型Xmodel-VLM，这个模型的主要目标是为了在消费级GPU服务器上高效部署，解决大规模多模态系统由于高昂的服务成本而难以广泛采用的关键行业问题。例如，我们有一个智能助手，它可以看图片，理解文字，然后用自然语言和我们交流。这个助手就像是电影里的“贾维斯”（J.A.R.V.I.S.），但... 阅读全文

直达链接好 0 不好 0 0

优惠 ALPINE：调查Transformer模型是否能够通过自回归学习来执行规划任务，并识别其在规划能力方面的潜在限制

AI

推荐人：暴走AI 标签：ALPINE AI

1天前AI

微软亚洲研究院发布论文，探讨在基于Transformer的语言模型（LLMs）中，通过自回归学习机制发展出的规划能力。项目ALPINE（Autoregressive Learning for Planning In NEtworks）旨在理论上调查Transformer模型是否能够通过自回归学习来执行规划任务，并识别其... 阅读全文

直达链接好 0 不好 0 0

优惠新型工具集BEHAVIOR Vision Suite (BVS)：能够通过模拟生成完全定制化的合成数据，用于系统性地评估计算机视觉模型

AI

推荐人：暴走AI 标签：BVS 计算机视觉模型 AI

1天前AI

斯坦福大学、南加州大学、哈佛大学、Meta、德克萨斯大学奥斯汀分校、伊利诺伊大学厄巴纳-香槟分校的研究人员推出新型工具集BEHAVIOR Vision Suite (BVS)，它能够通过模拟生成完全定制化的合成数据，用于系统性地评估计算机视觉模型。想象一下，如果你是一位计算机视觉研究员，你需要大量的、具有特定标签的... 阅读全文

直达链接好 0 不好 0 0

优惠通过使用先进的潜在扩散模型和ControlNet技术，从脑电图数据中解码音乐信息，为音乐生成和脑机接口领域提供了新的视角和可能性

AI

推荐人：暴走AI 标签：脑电图 AI

1天前AI

来自威尼斯福斯卡里大学、罗马第一大学和索尼 CSL的研究人员发布论文，探索使用潜在扩散模型（latent diffusion models）从脑电图（EEG）数据中重建自然主义音乐。脑电图是一种记录大脑活动的技术，而自然主义音乐指的是包含多种乐器、声音和效果的复杂音乐，这类音乐在和声和音色上都很丰富。主要功能：该研... 阅读全文

直达链接好 0 不好 0 0