搜索

OmniParser

[复制链接]

OmniParser

[复制链接]
明峻问道

主题

0

回帖

895

积分

积分
895
2025-3-31 14:21:44 | 显示全部楼层 |阅读模式
SuoLie-索猎免责声明与问题处理
导航大全
SuoLie索猎-权威分类: 智能Al工具 » AI编程工具 类
SuoLie索猎-类型分类2: -
SuoLie索猎-类型分类3: -
线上/线下: 线上
内容类型: 网址导航 平台链接 资源/工具 
业类分类: IT综合 科学技术 网络科技 AI智能 
全球地区: -
中国地区: 其他地区
详细地区地址: -
链接地址: 点击查看



OmniParser是什么
    OmniParser是由微软研究院开发的一个紧凑的屏幕解析模块,能够将用户界面(UI)的屏幕截图转换为结构化元素。它旨在与各种模型结合使用,创建能够在用户界面上执行操作的智能代理,特别是在只有视觉输入的情况下,如在不同的操作系统和应用程序中作为通用代理。
主要特点
  • 多模态模型的补充:OmniParser能够与大型视觉语言模型(如GPT-4V和GPT-4o)结合,显著提升这些模型在用户界面中的操作能力。
  • 高性能屏幕解析:该工具能够可靠地识别用户界面中的可交互图标,并理解屏幕截图中各种元素的语义,准确地将预期动作与屏幕上的相应区域关联起来。
  • 开源与研究推动:微软将OmniParser公开在GitHub上,并提供了训练过程的报告,以鼓励研究者开发能够在不同应用程序和环境中执行操作的代理。
主要功能
  • 创建专业数据集:开发了两个数据集,一个用于检测可交互图标,另一个用于描述UI元素的功能,这两个数据集是训练模型理解检测元素语义的关键。
  • 微调检测和描述模型:利用两个互补的模型,一个检测模型用于识别截图中的可操作区域,一个描述模型用于提取检测元素的功能语义,生成准确描述其预期动作的文本。
  • 基准测试性能提升:在ScreenSpot基准测试中,使用OmniParser解析结果的GPT-4V性能大幅提升。在Mind2Web基准测试中,OmniParser + GPT-4V的性能优于使用HTML额外信息的GPT-4V代理。在AITW基准测试中,OmniParser超越了使用Android视图层次结构训练的专业Android图标检测模型的GPT-4V。此外,在新的WindowsAgentArena基准测试中,OmniParser也取得了最佳性能。
使用示例
    以WindowsAgentArena基准测试为例,一个使用OmniParser和GPT-4V的代理在该基准测试中取得了最佳性能。这表明OmniParser能够有效地解析用户界面,并与GPT-4V结合,生成精确的、基于界面区域的操作指令。例如,代理可以识别屏幕上的“发送”按钮,并理解点击该按钮将执行发送消息的操作。
总结OmniParser是一个创新的屏幕解析工具,它通过与先进的视觉语言模型结合,显著提升了智能代理在用户界面中的操作能力。其主要优势在于能够准确识别和理解用户界面元素,并生成精确的操作指令。微软通过开源OmniParser,为研究社区提供了一个强大的工具,以推动多模态智能代理的发展,特别是在视觉输入受限的环境中。这不仅有助于提升现有模型的性能,也为未来智能代理的开发提供了新的方向。

相关帖子

全面多元化的综合上网导航网,▶有偿服务QQ 843980866更多资源
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

热门/赞助位
立即入驻

富强 民主 文明 和谐 自由 平等 公正 法制 爱国 敬业 诚信 友善

QQ | Archiver| 手机版| 小黑屋| 反馈举报| 侵权删除| 免责声明| 投诉建议| 联系我们| 赞助本站| 本站由cloudflare云安全提供防护加速服务| 索猎(SuoLie) | 蒙ICP备2021002753号-6 |网站地图

GMT+8, 2025-10-6 09:38 , Processed in 0.290107 second(s), 46 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复