DeepMind发布Gemini驱动的魔术指针,让光标捕获视觉语义上下文
•34 阅读•3分钟•前沿
GeminiDeepMindChromeMagic Pointer
•34 阅读•3分钟•前沿
背景
- 传统鼠标指针仅负责定位和点击,已沿用半个世纪。
- DeepMind 近期在 Gemini 基础上研发了“魔术指针”,让光标能够感知屏幕内容的视觉与语义信息。
四大交互原则
- 保持工作流:AI 能在用户当前使用的任意应用中直接响应,无需切换到独立的聊天窗口。
- 看见即说:光标悬停的区域会被实时裁剪并送入 Gemini,模型即可理解用户指向的文字、图片或代码块。
- 指代即答:“这”“那”式的简短指令被完整解析,用户只需指向并说出“这是什么?”或“把这翻译成英文”。
- 像素转实体:系统在推理时将光标下的像素转换为结构化实体(地点、日期、对象等),随后可直接生成待办、链接或可视化图表。
实验演示
- 图像编辑:在 Google AI Studio 中指向图片的某一部分并说“把这块颜色调亮”,Gemini 即返回编辑后的图像。
- 地图搜索:指向地图上的标记并说“这里有什么餐厅”,系统自动返回附近餐厅列表并提供预订链接。
技术实现要点
- 实时视觉裁剪:光标所在的屏幕区域被动态截取,转化为模型可接受的多模态输入。
- 语义抽取层:在 Gemini 推理阶段加入实体抽取模块,将像素信息映射为结构化标签。
- 跨应用桥接:通过 Chrome 扩展和即将发布的 Googlebook 笔记本,将指针能力注入操作系统的 UI 层。
“把像素变成可操作的实体,是让 AI 真正融入日常工作流的关键一步。” — DeepMind 研究团队
行业意义
- 降低使用门槛:用户无需手动复制粘贴上下文,极大提升了 LLM 与传统软件的协同效率。
- 提升多模态交互:把视觉感知与语言指令统一在光标层面,为未来的“全息桌面”奠定基础。
- 推动平台生态:Chrome、Googlebook 等生态将率先内置此类功能,可能引发其他操作系统的同类竞争。
前景展望
DeepMind 表示,魔术指针仍处于实验阶段,但已计划在今年底将其整合进所有 Chrome 浏览器,并在下半年随 Googlebook 笔记本面世。若技术成熟,光标将从“定位工具”升级为“智能助理”,为个人电脑乃至移动端的交互范式带来根本性转变。
本文是对第三方新闻源的主观解读。消息可能出现过时、不准确、歧义或错误的地方,仅供参考使用。点击此处查看消息源。