智能屏幕识别与分析,通过Ferret-UI语言模型实现的深度理解

访客 智能手机 7.5K+
苹果最近发布了一种新的研究,它展示了一个名为 Ferret-UI 的语言模型,能够深入理解屏幕上的内容。这项研究将有助于改进人机交互系统,并可能对其他应用程序和设备产生影响。

最近,苹果发表了一篇研究论文,展示了一种多模态大语言模型,命名为“Ferret-UI”。

智能屏幕识别与分析,通过Ferret-UI语言模型实现的深度理解

根据论文介绍,针对MLLMs模型(多模态大语言模型)无法有效理解移动应用在屏幕上显示的内容的问题,对Ferret-UI模型进行了调整。

为了训练Ferret-UI,苹果收集了大量初级用户界面任务的训练样本,如图标识别、文本搜索和widget列表。

这些样本的格式都是根据带有地域注释的说明书设计的,便于准确参考和接地气。

同时,为了增强模型的推理能力,苹果进一步编制了高级任务数据集,包括详细描述、感知/交互对话和功能推理。

这使得Ferret-UI在理解应用程序在屏幕上显示的内容方面,与目前的GPT-4V等MLLMs机型相比,具有明显的优势。

标签: 模型 样本 应用程序

抱歉,评论功能暂时关闭!