当前位置：首页 > 优惠 >大语言模型>文章详情

数据集和基准测试OmniACT：评估虚拟代理在执行计算机任务方面的能力

推荐人：暴走AI| 商城: AI | 2年前 (2024-02-28)| 分类：大语言模型 | 热度：975 ℃

已关闭评论

数据集和基准测试OmniACT：评估虚拟代理在执行计算机任务方面的能力

AI

这篇论文介绍了一个名为OmniACT的数据集和基准测试，旨在评估虚拟代理在执行计算机任务方面的能力。这些任务包括在桌面和网页应用中执行各种操作，如查看股票价格变化、在租房网站上查找房源、查看特定日期的天气等。OmniACT的目标是生成可执行的程序脚本，以自动化这些任务。

论文地址：https://arxiv.org/abs/2402.17553

主要功能和特点：

多模态理解： OmniACT不仅关注文本指令，还结合了屏幕图像，要求代理理解视觉信息。
广泛的任务范围： 数据集包含9.8K个任务，覆盖了多种操作系统和网页应用。
可执行脚本生成： 代理需要生成能够完全执行任务的脚本，这些脚本基于PyAutoGUI库，可以自动化鼠标和键盘操作。

工作原理：

数据收集： 通过人工标注，收集屏幕截图和相应的自然语言任务描述。
任务定义： 给定屏幕图像和任务描述，目标是生成一系列动作序列，这些序列能够在当前屏幕截图中成功完成任务。
评估指标： 提出了新的评估指标，如序列得分（Sequence Score）和动作得分（Action Score），以衡量代理生成的脚本的准确性和执行效果。

具体应用场景：

自动化日常任务： OmniACT可以帮助开发能够自动化执行日常计算机任务的虚拟代理，如管理日程、预订旅行等。
辅助技术： 对于技术熟练度较低的用户，OmniACT可以提供一种方式，让他们更容易地利用计算机系统。
研究和开发： 数据集为研究人员提供了一个平台，用于开发和测试能够理解和执行复杂用户界面操作的多模态代理。

总的来说，OmniACT是一个创新的资源，它推动了在自动化计算机任务和多模态理解方面的研究，为未来开发更智能、更通用的虚拟代理提供了基础。

OmniACT

声明： 猎游人每天为你带来最新的游戏和硬件打折情报，帮你精心挑选值得玩的游戏，让您的钱花的更值！本站信息大部分来自于网友爆料，如果您发现了优质的游戏或好的价格，不妨爆料给我们吧（谢绝任何商业爆料）！点此爆料

上一篇：微软发布论文全面解读OpenAI新模型Sora

下一篇： DCA：帮助大语言模型（LLMs）处理和生成更长文本内容，而不需要额外的训练

0条评论

暂时木有评论

猜你喜欢

查看更多商品

我要爆料我的收藏顶部

© Copyright2019-2026 | 版权所有：猎游人| 皖ICP备18025588号-1

快速登录