优惠 Simular推出新型框架Agent S：以让计算机像人类一样通过图形用户界面（GUI）自主执行复杂的多步骤任务

AI

推荐人：暴走AI 标签：Agent S AI

2年前 (2024-10-12)AI

Simular Research推出新型框架Agent S，它可以让计算机像人类一样通过图形用户界面（GUI）自主执行复杂的多步骤任务。简单来说，Agent S就是一个智能助手，它能理解你的指令，然后自动在电脑上执行这些指令，比如数 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 GLOV：利用大语言模型（LLMs）来优化视觉-语言模型（VLMs）的技术，目的是提升下游视觉任务的性能

AI

推荐人：暴走AI 标签：GLOV AI

2年前 (2024-10-12)AI

奥地利格拉茨工业大学、日本索尼集团公司、IBM 研究院，以色列、奥地利林茨 JKU、德国奥芬堡大学、荷兰阿姆斯特丹大学、澳大利亚悉尼新南威尔士大学、索尼人工智能公司，美国、美国麻省理工学院-IBM 沃森人工智能实 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠型文本到四维合成框架TRANS4D：根据文本描述生成包含复杂场景转换的四维（4D）动态场景

AI

推荐人：暴走AI 标签：TRANS4D AI

2年前 (2024-10-12)AI

北京大学、香港中文大学和斯坦福大学的研究人员推出新型文本到四维（Text-to-4D）合成框架TRANS4D，这个框架能够根据文本描述生成包含复杂场景转换的四维（4D）动态场景。简单来说，就是能够根据你给的文字描述 ...... 阅读全文

直达链接好 1 不好 0 已关闭评论

优惠新型视频理解模型TRACE：专门设计来处理视频时间定位任务

AI

推荐人：暴走AI 标签：TRACE 视频理解模型 AI

2年前 (2024-10-10)AI

香港中文大学科学与工程学院、深圳市人工智能与机器人研究院、广东省未来智能网络重点实验室和腾讯的研究人员推出新型视频理解模型TRACE，它专门设计来处理视频时间定位（Video Temporal Grounding，简称VTG）任务。 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 video-t3：提高视频大型语言模型（Video LLMs）在处理时间推理方面的能力

AI

推荐人：暴走AI 标签：video-t3 AI

2年前 (2024-10-10)AI

香港大学、北京大学和加州大学圣地亚哥分校的研究人员推出新方法T3，它旨在提高视频大型语言模型（Video LLMs）在处理时间推理方面的能力。这些模型通常在理解视频内容时遇到困难，尤其是在跟踪随时间变化和理解时间 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠新型编程辅助框架CursorCore：能够通过对话的方式，帮助程序员更高效地编写和修改代码

AI

推荐人：暴走AI 标签：CursorCore AI

2年前 (2024-10-10)AI

中国科学技术大学认知智能国家重点实验室和科大讯飞（华中）人工智能研究院的研究人员推出新型编程辅助框架CursorCore，这个框架能够通过对话的方式，帮助程序员更高效地编写和修改代码。想象一下，你正在编写一个程 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠全新TTS系统F5-TTS：能够将文本信息转换成听起来自然且富有表现力的语音

AI

推荐人：暴走AI 标签：F5-TTS AI

2年前 (2024-10-10)AI

上海交通大学、剑桥大学，吉利汽车研究院（宁波）有限公司的研究人员推出一个名为F5-TTS的全新文本到语音（Text-to-Speech，TTS）系统。这个系统能够将文本信息转换成听起来自然且富有表现力的语音。想象一下，你正 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠基于Mamba架构构建的大语言模型Falcon Mamba 7B

AI

推荐人：暴走AI 标签：Falcon Mamba 7B AI

2年前 (2024-10-10)AI

阿拉伯联合酋长国阿布扎比技术创新研究所推出大语言模型Falcon Mamba 7B，它是基于一种新颖的架构——Mamba架构构建的。这个模型经过了大量数据的训练，并且在性能上超过了其他一些知名的、基于Transformer架构的模型 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 TinyEmo：用于情感推理和分类的小型多模态语言模型系列

AI

推荐人：暴走AI 标签：TinyEmo AI

2年前 (2024-10-10)AI

TinyEmo是一个用于情感推理和分类的小型多模态语言模型系列。你可以把TinyEmo想象成一个迷你的情感分析专家，它能够理解图片中的情感内容，并给出相应的分类。例如，一个社交媒体用户分享了一张看起来孤独的图片，Ti ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 Diversity-Rewarded CFG：提高音乐生成模型在创作过程中的多样性和质量

AI

推荐人：暴走AI 标签：Diversity-Rewarded CFG AI

2年前 (2024-10-10)AI

谷歌发布论文，论文的主题是关于如何提高音乐生成模型在创作过程中的多样性和质量。想象一下，你是一位音乐制作人，想要创作出既符合某个主题又充满新意的音乐作品。但是，如果你每次创作出来的作品都大同小异，那就 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠 CritiCS：使用大语言模型（LLMs）来创造具有叙事连贯性和创造力的长篇故事

AI

推荐人：暴走AI 标签：CritiCS AI

2年前 (2024-10-10)AI

韩国蔚山科学技术研究院人工智能研究生院推出CritiCS，使用大语言模型（LLMs）来创造具有叙事连贯性和创造力的长篇故事。想象一下，你是一位作家，想要写一个既有趣又能让读者一直猜不到下一步会发生什么的长故事， ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

优惠用于加速音乐生成的新技术Presto!：通过减少采样步骤和每个步骤的成本，来加速基于分数的音乐生成模型的推理过程

AI

推荐人：暴走AI 标签：Presto! AI

2年前 (2024-10-09)AI

加州大学圣地亚哥分校、Adobe Research的研究人员推出一种用于加速音乐生成的新技术Presto!，Presto!通过减少采样步骤和每个步骤的成本，来加速基于分数的扩散变换器（一种生成音乐的模型）的推理过程。例如，你是一 ...... 阅读全文

直达链接好 0 不好 0 已关闭评论

推荐类别

栏目分类

人工智能

优惠 Simular推出新型框架Agent S：以让计算机像人类一样通过图形用户界面（GUI）自主执行复杂的多步骤任务

优惠 GLOV：利用大语言模型（LLMs）来优化视觉-语言模型（VLMs）的技术，目的是提升下游视觉任务的性能

优惠型文本到四维合成框架TRANS4D：根据文本描述生成包含复杂场景转换的四维（4D）动态场景

优惠新型视频理解模型TRACE：专门设计来处理视频时间定位任务

优惠 video-t3：提高视频大型语言模型（Video LLMs）在处理时间推理方面的能力

优惠新型编程辅助框架CursorCore：能够通过对话的方式，帮助程序员更高效地编写和修改代码

优惠全新TTS系统F5-TTS：能够将文本信息转换成听起来自然且富有表现力的语音

优惠基于Mamba架构构建的大语言模型Falcon Mamba 7B

优惠 TinyEmo：用于情感推理和分类的小型多模态语言模型系列

优惠 Diversity-Rewarded CFG：提高音乐生成模型在创作过程中的多样性和质量

优惠 CritiCS：使用大语言模型（LLMs）来创造具有叙事连贯性和创造力的长篇故事

优惠用于加速音乐生成的新技术Presto!：通过减少采样步骤和每个步骤的成本，来加速基于分数的音乐生成模型的推理过程