首页 动态 正文

谷歌 Gemini Live 推新 AI 功能,可实时识别屏幕与摄像头内容

 2025-03-24  

3 月 24 日,据 The Verge 报道,谷歌 (GOOG.O) 正在为其人工智能助手 Gemini Live 推出一项新功能,使 AI 能够“看到”用户设备屏幕或手机摄像头上的内容,并实时回答相关问题。这一突破性的功能由谷歌发言人亚历克斯·约瑟夫在一封电子邮件中证实,并被视为“阿斯特拉计划”的延续。

“阿斯特拉计划”是谷歌在近一年前首次展示的人工智能研究项目,旨在赋予 AI 更强的感知能力,使其能够理解并实时处理用户周围的视觉信息。如今,这一技术终于在 Gemini Live 平台上得以实现,为用户带来更加直观、高效的 AI 交互体验。

这一新功能的核心能力在于 AI 能够访问用户设备的屏幕内容,或通过手机摄像头实时分析周围环境,然后提供即时反馈。例如,用户可以打开一个应用程序或网页,AI 可直接读取屏幕内容并回答相关问题;或者用户可以对准一件物品、文档甚至实物场景,AI 便能识别并给出详细解释或建议。这种实时交互方式极大地扩展了 AI 的应用场景,使其从传统的文本和语音交互,迈向更具视觉理解能力的智能助理。

该技术的应用前景十分广阔。在日常生活中,用户可以通过手机摄像头向 AI 询问物品信息,如识别商品、翻译菜单、解析地图等。在工作和学习环境中,AI 还可以实时解析屏幕上的文档、代码或数据,并提供优化建议。此外,该功能还可能在教育、医疗、购物等领域发挥重要作用,例如帮助学生解答数学题、辅助医生分析医疗影像,或为用户推荐最适合的产品。

不过,该功能的推出也引发了隐私和安全方面的讨论。谷歌如何确保用户屏幕和摄像头数据的安全,如何在提供智能服务的同时保护个人隐私,仍然是业界关注的重点。谷歌尚未披露具体的隐私保护措施,但预计会采取端到端加密、权限管理等方式来保障用户数据的安全性。

随着人工智能技术的快速进步,谷歌在 Gemini Live 上的新功能无疑将进一步提升 AI 的智能化水平,为用户带来更直观、实时的交互体验。而在竞争激烈的 AI 领域,谷歌此举也可能加剧与 OpenAI、微软等公司在多模态 AI 领域的竞争,为人工智能的发展打开新的可能性。


  •  标签: