智能屏幕识别与分析，通过Ferret-UI语言模型实现的深度理解

访客智能手机 2023-06-12 7.6K+

苹果最近发布了一种新的研究，它展示了一个名为 Ferret-UI 的语言模型，能够深入理解屏幕上的内容。这项研究将有助于改进人机交互系统，并可能对其他应用程序和设备产生影响。

最近，苹果发表了一篇研究论文，展示了一种多模态大语言模型，命名为“Ferret-UI”。

根据论文介绍，针对MLLMs模型(多模态大语言模型)无法有效理解移动应用在屏幕上显示的内容的问题，对Ferret-UI模型进行了调整。

为了训练Ferret-UI，苹果收集了大量初级用户界面任务的训练样本，如图标识别、文本搜索和widget列表。

这些样本的格式都是根据带有地域注释的说明书设计的，便于准确参考和接地气。

同时，为了增强模型的推理能力，苹果进一步编制了高级任务数据集，包括详细描述、感知/交互对话和功能推理。

这使得Ferret-UI在理解应用程序在屏幕上显示的内容方面，与目前的GPT-4V等MLLMs机型相比，具有明显的优势。

本文地址： http://www.momoru.com/19836.html