优惠 Meta发布室内场景重建方法SceneScript:能够直接从视频流中预测出室内场景的三维模型
2年前 (2024-03-21)AI
Meta发布了一种使用自回归结构化语言模型重建场景的方法SceneScript。该方法使用场景语言编码器-解码器架构,直接从编码的视觉数据中推断出一组结构化的语言命令。为了训练SceneScript,作者生成并发布了一个大规模的合成数据集,名为Aria Synthetic Environments,包含10万个高质量的... 阅读全文
优惠 模型缩放策略Scaling on Scales:挑战传统上认为“越大越好”的观念
2年前 (2024-03-21)AI
这篇论文探讨了一个有趣的问题:我们是否总是需要更大的视觉模型来获得更好的视觉理解?作者们提出了一种名为“Scaling on Scales”(S2)的方法,这是一种在图像尺度上进行扩展的策略,而不是简单地增加模型的大小。具体来说,他们使用了预训练的小型视觉模型(例如ViT-B或ViT-L),并在多个图像尺度上运行这些模... 阅读全文
优惠 大语言模型微调框架LLAMAFACTORY:使用户能够灵活地自定义微调100多个不同的大语言模型
标签:LLAMAFACTORY
AI
2年前 (2024-03-21)AI
来自北航的研究团队推出大语言模型微调框架LLAMAFACTORY,它是一个用于高效微调大语言模型(LLMs)的统一平台。LLAMAFACTORY通过整合一系列最新的高效训练方法,使用户能够灵活地自定义微调100多个不同的LLMs,而无需编码,只需通过内置的Web界面LLAMABOARD即可完成。LLAMAFACTORY... 阅读全文
优惠 HyperLLaVA:用于增强多模态大语言模型(MLLMs)性能的技术
2年前 (2024-03-21)AI
来自浙江大学、上海科技大学、 重庆大学、 阿里巴巴集团和哈尔滨工业大学的研究团队推出HyperLLaVA,它是一种用于增强多模态大型语言模型(MLLMs)性能的技术。HyperLLaVA的目标是改进现有的MLLMs,如LLaVA,通过动态调整模型的视觉和语言处理部分,使其能够更好地理解和生成与视觉内容相关的文本。总的来... 阅读全文
优惠 Zigzag Mamba:解决现有扩散模型在处理视觉数据时的可扩展性和计算复杂性问题
标签:Zigzag Mamba
AI
2年前 (2024-03-21)AI
慕尼黑大学的研究团队发布论文介绍了一种名为Zigzag Mamba(ZigMa)的新型扩散模型,它是为了解决现有扩散模型在处理视觉数据时的可扩展性和计算复杂性问题。扩散模型是一种深度学习技术,用于生成图像、视频等内容,但它们在处理大规模数据时面临挑战。总的来说,ZigMa是一种新型的扩散模型,它通过改进数据处理方式和优... 阅读全文
优惠 基于 Cloudflare Pages 和 R2 的轻量级文件床和在线剪贴板FileWorker
标签:FileWorker
工具
2年前 (2024-03-21)工具
FileWorker是一个基于 Cloudflare Pages 和 R2 的轻量级文件床和在线剪贴板,也能当图床来用。... 阅读全文
优惠 轻量级视觉模型EfficientVMamba:结合了全局和局部特征提取能力的网络架构
2年前 (2024-03-21)AI
来自悉尼大学的研究团队论文介绍了一种名为EfficientVMamba的轻量级视觉模型,它是一种结合了全局和局部特征提取能力的网络架构。想象一下,你有一个超级助手,它能够在保持图像细节的同时,快速地从大量图片中识别出不同的物体。EfficientVMamba就像这样一个助手,但它专注于图像处理和识别任务。 主要功能和特... 阅读全文













