苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型

分类:大语言模型 | 热度:23 ℃

苹果推出Ferret-UI,它是一种专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型(MLLM)。Ferret-UI旨在提高对移动UI屏幕的理解能力,具备引用、定位和推理等能力。与一般领域的MLLM相比,这些模型在理解和与UI屏幕有效交互方面往往存在不足。例如,如果用户想要在手机上预订餐厅,Ferret-UI可以帮助识别并操作预订应用的UI元素,如填写日期、时间和人数等。它还能够解释屏幕上的视觉元素,如图标代表的功能,或者在与UI元素交互时提供指导。这样的技术可以显著提高用户与移动应用交互的效率和准确性。

苹果推出Ferret-UI:专门为理解和交互移动用户界面(UI)屏幕而设计的多模态大语言模型

主要功能和特点:

  1. UI屏幕理解: Ferret-UI能够识别和理解UI屏幕上的各种元素,如图标、文本等。
  2. 灵活的输入格式: 支持多种输入格式,包括点、框、涂鸦等,以便更精确地引用和定位屏幕上的特定元素。
  3. 增强的视觉特征: 通过“任何分辨率”技术放大细节,以便更好地处理UI屏幕中的小对象。
  4. 执行开放式指令: 能够根据开放式的自然语言指令执行任务,如描述屏幕功能、进行交互对话等。

工作原理: Ferret-UI在模型架构上进行了创新,以适应不同宽高比的屏幕。它将屏幕分成两个子图像,分别编码后发送给语言模型。此外,它还利用预训练的图像编码器和投影层生成整个屏幕的视觉特征。对于需要区域引用的文本,视觉采样器会生成相应的连续区域特征。语言模型结合全图表示、子图表示、区域特征和文本嵌入来生成响应。

具体应用场景:

  1. 辅助功能: 可以帮助视觉障碍用户通过语音指令与手机应用进行交互。
  2. 多步骤UI导航: 通过理解屏幕上的元素和用户指令,自动导航到应用中的特定功能。
  3. 应用测试: 自动化测试移动应用的UI元素,确保它们按预期工作。
  4. 可用性研究: 分析用户与应用的交互,改进UI设计。
声明: 猎游人 每天为你带来最新的游戏和硬件打折情报,帮你精心挑选值得玩的游戏,让您的钱花的更值!本站信息大部分来自于网友爆料,如果您发现了优质的游戏或好的价格,不妨爆料给我们吧(谢绝任何商业爆料)! 点此爆料

0条评论

Hi,您需要填写昵称和邮箱!
姓名 (必填)
邮箱 (必填)
网站

暂时木有评论