译者言

归功于资本对新技术的催长,如今的 XR 不再是人们眼中的空中楼阁。最近的里程碑, Oculus Quest2 以亲民的价格、完善的体验和质优的应用成功出圈被大众消费者熟知。似乎一切的线索都指向一件事,人机交互的下一个时代要来了。
以下分享译制自 Facebook Reality Labs(简称FRL) 的一篇文章。Reality Labs 作为研究虚拟/现实的头部实验室,以业内视角探讨了 AR 当下发展状况和面临的挑战。
部分内容因本人理解差异有所增删,疑问之处请看原文。

导读

这是探索人机交互(HCI)未来的系列文章的第一篇:我们将为你剖析和展望基于情景感知、人工智能驱动的增强现实(AR)眼镜未来10年的愿景。我们的最终目标希望能够分析个人(公开)信息来推断人们什么时候想做什么事情。
想象一个世界,一副轻巧时尚的眼镜可以代替你对计算机或智能手机的需求。无论身处世界何处,你都可以与亲朋好友互动。具备情景感知能力的 AI 借助触手可及的 3D 虚拟信息帮助你在现实世界中导航。最棒的是,相比于现在人们的注意力都聚焦在手掌中的屏幕,AR 眼镜可以让人们抬起头重新开始观察和认识周围的世界。这是一种不会强迫你的注意力在现实世界或数字世界之间进行二选一的设备,现实和虚拟世界至此真正融合。
这听起来像科幻小说,但 FRL 正在努力让它成为现实。今天,我们将分享期望中人们未来交互的样子。

AR 交互的挑战

FRL 首席科学家 Michael Abrash 称 AR 交互是「难研究但非常有趣的多学科问题之一」,因为它是一个人与计算机互动模式的完全转变。最近一次重大转变发生于20世纪60年代,Doug Engelbart 的团队发明了鼠标,为图形用户界面(GUIs)发展铺平了道路。GUI 的发明从根本上改变了人机交互,因此有了近几十年翻天覆地的变化。

几乎整天佩戴的 AR 眼镜需要一种新的交互模式,它们需要具备能够处理你日常碰到不同问题、不同情况的能力。AR 眼镜需要能够做你想让它做的事情,并在你想知道的时候告诉你想知道的事情,就像你自己的大脑一样无缝的与你同步信息,在你想要的时候采取行动,而不是妨碍你。

「为了使 AR 真正普及,你需要输入成本低,且持续可用的技术。该技术必须直观易用,以至于成为你身体的延伸」Abrash 说道。「这与现今的人机交互大相径庭。因此,像 Engelbart 一样,我们需要发明一种全新的界面类型 - 一种将人类置于计算中心的界面。」

AR 界面需要主动而非被动接收信息。它有能力将人的意图无缝地转化为行动,智能地处理一切生活事务,包括更为密切地与周围的人保持联系。

但重要的前提是,它在各方面都必须得到社会的认可和接受: 安全、私密、不引人注目、易学习、易用、舒适/全天可穿戴和毫不费力并可靠。因此,当构建以人为中心的下一代计算平台时,我们必须以负责任的态度和以人隐私为中心的方式推动这一创新。

简而言之,AR 界面的创新需要重新思考人与计算机之间的交互方式,它将与 GUI 一样改变我们与数字世界的互动关系。

探索一个应用场景

假设你打算去附近的咖啡馆完成一些工作。出门前,你戴着一副 AR 眼镜和一条智能腕带。当你出门时,AR 助手会询问你是否想收听自己关注的播客,你挥动手指点击「确认播放」。

当你走进咖啡馆,AR 助手会询问「您需要我订购12盎司的美式咖啡吗?」跟往常不同,这次你挥动手指点击「否」。

你在咖啡馆找到一张桌子坐下,那时的你不用再拿出笔记本电脑,而是取出一双柔软,轻便的触觉手套。当你戴上手套,虚拟屏幕和键盘就会在眼前显示。然后你开始编辑文档,手指打字就像在物理键盘上打字一样直观,而且手感非常棒。

在你准备进入工作状态时发现咖啡馆的噪音令人难以集中注意力,此时 AR 助手已经识别你处于工作模式并开始检测环境噪音,检测到噪音后系统使用特殊的入耳式监听器(IEM)和主动降噪功能来柔化背景噪声,现在你非常容易就能集中注意力了。一位服务员来到桌旁询问你是否续杯,系统识别并增强这段声音,尽管周遭环境嘈杂,但两人可以就咖啡续杯的问题正常对话,并且以上发生的全过程都是自动进行的。

你和服务员对话中途有朋友打电话进来,你的 AR 助手为避免打断你当前对话自动将其转到语音信箱。因为你设置了今天约会的日历事件,到点后你会收到温和轻干扰的视觉提醒,并提示你当前的交通状况以免迟到。

创建 AR 界面

2020 年的 Facebook Connect,Abrash 提出一个持续可用的 AR 界面需要有 2 种技术支撑建立:

第一是低输入成本,用户采取行动时,从动机到行动的路径尽可能短且直观。

现阶段,你已经可以使用手势、发出语音命令或凝视进行操作。无论是哪种操作方式,目的都是为了更自然、轻松地控制 AR 眼镜。我们探索了一系列神经输入方式,包括肌电图(EMG) 。尽管多个方向都有发展潜力,但基于手腕的肌电图是最有前景的。这种方式通过接收从脊髓传到手的电信号,利用手腕处的信号解码来控制设备。电信号传送的信号非常清晰,以至于 EMG 可以检测到仅 1mm 的手指运动。这意味着用户输入会变得非常轻松,轻松到只要检测到你移动手指的意图就能执行相应动作。

第二是人工智能、情景感知和个性化,根据输入的信息在不同场景输出匹配你需求的信息。构建这样一个性化界面之前,我们需要建立强大的人工智能模型 - 基于对你及周围环境的理解,可以在不同情景中推测出此刻你需要的信息,并为你提供正确的选择。理想情况下,你只需要操作一次就能做到想做的事情。或者更好,你根本不需要任何操作就能完成想做的事情。我们的目标是让体验可控,即使在信息自动化处理过程时也不例外。

除这 2 种技术外,AR 眼镜还存在其他重大的挑战。例如,如何将硬件系统包装成舒适可全天穿戴的外设,如何提供操控虚拟物体所需的丰富触觉反馈,以及触觉反馈如何建立系统与用户之间的关系(参考手机振动)。

AR 眼镜最终的交互形态将是多种新技术和优化技术的全新集合,包括神经输入、手势追踪/识别、语音识别、计算机视觉以及多种新的输入技术,比如 IMU 手指点击和自触摸检测。AR 眼镜要做到情景理解到视觉搜索,需要更广泛的情景感知的 AI 能力支持。以上所有技术的目的都是为了设备能更轻松、快捷地执行人们发送的指令。

更出色的情景感知

未来的 AR 界面与之前人机交互界面间的最大区别在于, AR 设备被赋予更多情景感知、理解的能力。 AR 眼镜以佩戴人的视角看见世界,这决定了 AR 比起现今交互多了一层用户情景维度。结合强大的 AI 推理模型,系统理解情景并提供个性化的解决方案,为人处理事务腾出更多的时间和精力。

另一个区别在于,现今大多数界面都是模态界面 - 你打开一款应用相当于进入一个场景,你接下来所做的选择与你进入的场景相关。当你从一款应用切换到另一款,并进入下一个任务时,你之前所进行任务的上下文关联信息就会丢失。但在 AR 眼镜中却不会,它能在你所处的不同环境中无缝运行。甚至环境越是频繁变化和交错,设备体验越出色。也就是说 AR 眼镜可以预测并为你提供一组正确的选项,而不像今天的界面那样,为了找到想要的信息,你需要在一个接一个的菜单中导航。

至关重要的是,未来的界面会在关键的用户反馈中变得更好用。由于输入成本低的特征,AI 会不时向你提出问题以便快速了解你的需求,你不会因为输入麻烦而拒绝回答。实时指导系统将超越传统的数据收集和训练系统。

我们最终目标是建立一个准确地适配和满足人需求的界面,这个界面能够在不确定的情况下提出一个简单的问题来消除歧义,但是距离目标还有很长路要走。其中训练 AI 推理模型所需的传感技术和以人为中心的数据还不存在。我们最近启动了名为 Aria 的项目,收集了大量第一人称视角数据,相信这会帮助我们向目标更近一步。

以人为中心

现今的设备让我们能够不受时间和空间的限制与任何人产生联系,但这些联系往往是以牺牲我们与身边人的联系为代价建立起来。很多人可能会经常告诫自己,让自己放下手机,专注与眼前人的交流。世界既是物理,也是数字的,我们不应该牺牲一个来成全另一个。

人们需要一台不会强迫自己在人和计算机之间做出选择的设备。这些未来的设备将让我们抬起头,重新关注身边的世界,做更多为人与生俱来的事情 - 连接和协作。

要让人机交互的下一时代成为可能,我们需要一个真正以人为中心的交互范式转变 - 设备需要适应我们,而不是我们适应设备。这意味着 AR 需要属于自己的 Englebart 时刻。