首页动态正文

谷歌 Gemini Live 推新 AI 功能，可实时识别屏幕与摄像头内容

2025-03-24

3 月 24 日，据 The Verge 报道，谷歌 (GOOG.O) 正在为其人工智能助手 Gemini Live 推出一项新功能，使 AI 能够“看到”用户设备屏幕或手机摄像头上的内容，并实时回答相关问题。这一突破性的功能由谷歌发言人亚历克斯·约瑟夫在一封电子邮件中证实，并被视为“阿斯特拉计划”的延续。

“阿斯特拉计划”是谷歌在近一年前首次展示的人工智能研究项目，旨在赋予 AI 更强的感知能力，使其能够理解并实时处理用户周围的视觉信息。如今，这一技术终于在 Gemini Live 平台上得以实现，为用户带来更加直观、高效的 AI 交互体验。

这一新功能的核心能力在于 AI 能够访问用户设备的屏幕内容，或通过手机摄像头实时分析周围环境，然后提供即时反馈。例如，用户可以打开一个应用程序或网页，AI 可直接读取屏幕内容并回答相关问题；或者用户可以对准一件物品、文档甚至实物场景，AI 便能识别并给出详细解释或建议。这种实时交互方式极大地扩展了 AI 的应用场景，使其从传统的文本和语音交互，迈向更具视觉理解能力的智能助理。

该技术的应用前景十分广阔。在日常生活中，用户可以通过手机摄像头向 AI 询问物品信息，如识别商品、翻译菜单、解析地图等。在工作和学习环境中，AI 还可以实时解析屏幕上的文档、代码或数据，并提供优化建议。此外，该功能还可能在教育、医疗、购物等领域发挥重要作用，例如帮助学生解答数学题、辅助医生分析医疗影像，或为用户推荐最适合的产品。

不过，该功能的推出也引发了隐私和安全方面的讨论。谷歌如何确保用户屏幕和摄像头数据的安全，如何在提供智能服务的同时保护个人隐私，仍然是业界关注的重点。谷歌尚未披露具体的隐私保护措施，但预计会采取端到端加密、权限管理等方式来保障用户数据的安全性。

随着人工智能技术的快速进步，谷歌在 Gemini Live 上的新功能无疑将进一步提升 AI 的智能化水平，为用户带来更直观、实时的交互体验。而在竞争激烈的 AI 领域，谷歌此举也可能加剧与 OpenAI、微软等公司在多模态 AI 领域的竞争，为人工智能的发展打开新的可能性。

标签：

发表评论：取消回复