谈谈Vision Pro的长期意义：十年内数字内容将重塑物理空间

今天小编分享的财经经验：谈谈Vision Pro的长期意义：十年内数字内容将重塑物理空间，欢迎阅读。

过去几年，我一直研究XR（VR/AR/MR的统称）领網域，致力于从一个严肃、务实的角度探讨行业发展。

我的第一次分享是在2021年底的《从游戏机、计算机、智能手机的过去五十年看VR和AR的未来五十年》，当时的背景是Facebook改名为Meta，字节收购Pico，元宇宙概念异常火爆，当时分享的主要目的是想告诉大家，XR不是一个速成的行业，它的发展以数十年为部門计。

第二次分享是在2022年底的《我眼中的VR、AR和Metaverse：三维信息技术革命》，当时的背景是Quest2销量断崖式下跌，Pico4销量大幅低于预期，当时分享的主要目的是想告诉大家XR的革命性意义，无论外界多么唱衰，都不能低估XR未来的巨大潜力。

过去几年的发展，逐步验证了一些我的判断。一方面，从Meta收购Oculus开始的2014年到今天，数不清的元年已经过去，我们还没有迎来XR的大爆发。另一方面，科技巨头仍然不断加码入场，XR行业的全球累计投入已经接近千亿美金。2023年，Meta在Reality Labs全年投入180亿美金，2024年大概率还会超过这个数字。而更让全球瞩目的是，苹果终于入场，发布了首款可穿戴空间计算设备Vision Pro。

打开苹果官网的Vision页面，第一句话就是"Welcome to the era of spatial computing."欢迎来到空间计算时代。

苹果入场，Vision Pro会对行业带来怎样的影响？行业未来可能会向什么方向发展？这将是我今天分享的重点。

一、XR过去十年的意义

研究未来，就不能不研究过去。我们不能孤立地看某一款设备，而是应该从行业整体的高度来看待行业的发展。就好像iPhone并不是横空出世，在此之前也有这样和那样的设备分别从不同的角度验证了移动设备的价值。而对于一个已经花了近千亿美金的XR行业，总结前人的经验显得更加重要。

XR行业和智能手机、智能手表、个人电腦等行业有个最大的不同，就是头戴式计算设备目前很缺乏产品验证的历史。电腦上市前，我们已经有近一百年时间验证了打字机的价值，也有小几十年时间验证了电视机的价值。智能手机上市前，我们验证了电话、验证了手机、验证了PDA、验证了MP3、验证了Game Boy。

而头戴式计算设备对于重量、技术的苛刻要求，导致虽然在科幻小说中的提及率很高，但真正大规模从概念走向商品，也就近十年的事。所以研究XR行业的产品，只要集中看过去十年即可。

过去十年，大量的设备上市，有Oculus Rift/Quest， HTC Vive， Valve Index， HoloLens， Magic Leap， Google Glass等等。站在当时看，这些设备都各有优劣，但最后真正集各家大成，构建了正向生态的只有Oculus（后被Meta收购），代表产品是销量突破1000万台的Meta Quest 2。

过去十年发布的XR设备（部分）

与普遍认知提到的沉浸感一词所不同的是，在千万级用户的层面，过去十年真正验证成功的只有一件事，就是三维互動的价值。简单来说，就是由头手追踪构成的三维互動，可以完成键盘、滑鼠、搖桿、触屏构成的二维互動所不能完成的事，所以有了VR的FPS，模拟真实的架枪、瞄准，有了音乐动作游戏Beat Saber，模拟刀剑切割方块，还有社交产品VRChat，进行全身动捕，还有Gorilla Tag，模拟双手运动。此刻，全球大约有接近1000万的VR月活用户。

有人说Quest 2是游戏机，说这些用户是游戏机用户，这是相对片面的看法，其实Quest生态里也有不少娱乐应用和行业应用。而且我更愿意认为，这些用户本质上是三维互動的用户。

随着开发者的理解日益深刻，三维互動带来了全新的产品设计思路。在《绝地求生》和《和平精英》的玩法里，传统的跳伞环节是在手机和电腦上通过对地图手动选点完成，而在VR游戏Contractors:Showdown（Contractors吃鸡玩法的新作，年内上线）里，你将会真的从万米高空中的军用运输机里往下跳。而在路途中查看地图时，传统互動是弹出一个地图視窗，而这里你将会真的掏出一台军用手持GPS。

过去十年，还有很多没有验证成功的事。首先就是三维显示，包括大家曾经看好的VR视频，因为显示技术的原因，除了画面大，实际消费者感受到的分辨率和显示效果是弱于传统平面显示器的。

然后是MR混合现实，Magic Leap和HoloLens这两款投入了几十亿美金的设备，也因为显示和算力等综合技术路线的原因，从最早面向2C消费者到后期转向2B，非常艰难地生存着。

最后是AR眼镜Google Glass，虽然引发了巨大的社会讨论，但也只是昙花一现。这些方案本身并非一无是处，放在当年都有天才的洞察之处，但或多或少因为技术上或产品上的缺点和局限而陷入了困境。

二、Vision Pro发布的意义

2024年2月2日，Vision Pro正式上市。我仍然想强调一下的是，Vision Pro不是突然发布的，苹果为此已经准备了9年。苹果2015年就已经挖来了前Dolby的高管Mike RockWell，组建团队进行XR设备的开发，并且苹果的开发也并非一帆风顺，传言还在2019年大幅更改了产品原型。

接下来我们分析Vision Pro，我想说，这里面并不仅仅是技术层面的问题，也不仅仅是工程层面的问题，还包括从产品层面，从生态层面等不同角度综合理解XR。理解XR有一个典型的误区，就是简单地把计算设备这件事当成是硬體的事或者科技的事，研究设备也仅仅只是从参数出发，甚至有人评价Vision Pro是苹果的极致堆料，我完全不赞同这个结论和这种分析方式。

其实围绕平台级计算设备的设计是一件相当整体的事，这里面包括硬體，包括OS，包括第一方应用，也包括第三方生态，这不是割裂的几部分，而是一个有机的整体。况且，我们研究的是下一代计算平台，这一次没有后视镜，也没人给你现成的答案，是需要通过独立思考，吸取前人的经验教训，形成一整条产品主线，一整套底层的产品设计理念来指导我们的研究。

接下来我要讲的所有的进展，我认为会起源于Vision Pro，但不止于Vision Pro。一方面，各家厂商肯定会快速学习。另一方面，Vision Pro上市后，也会根据消费者、开发者的反馈，更进一步。所以希望大家能够动态地、辩证地看待Vision Pro的设计，而不是仅仅把目光局限、固化在某一家某一代的设备上。

1. Vision Pro重新定义三维显示

第一点也是最重要的就是Vision Pro带来的全新的、高质量的三维显示。

在谈三维显示之前，我想从用户的角度讲讲使用二维平面显示设备的心路历程。我们大部分人都是从90年代开始接触电腦、电子游戏机等设备的。我们使用电视和显示器，最早是320X240的分辨率，再然后是640X480，1024X768，1080P，4K，在我的记忆中，每一个时期的显示效果我都觉得还不错，以至于现在还能回过头玩一些像素风的老游戏。

再看手机也是，iPhone4 有了视网膜屏很好，但是之前也不错。总体二维平面显示给我们的感觉就是分辨率差点我们也能接受，好点当然更好，好到一定程度（视网膜屏）再往后体验提升就不明显了。一句话总结，过去20多年平面显示器的分辨率提升带给用户的体验提升是渐进的，是一种量变。

然后我们来看三维显示。三维显示里分辨率的部門用PPD（Pixels Per Degree），意思是视野的每一度里面有多少像素。光看参数，其实很难得出有效结论，更要结合用户实际体感。

Quest2的分辨率是20PPD，就是指每一度里面有20个像素。20PPD，用户会明确分辨出现实和虚拟世界的差异，再加上机器性能的限制，一体机通过卡通渲染带给用户视觉冲击也相对有限，用户会觉得挺有趣，但并不会很震撼。我对这个阶段的显示效果定义为立体感。

人眼的极限是60PPD。而Vision Pro 是40PPD，一定程度已经接近人眼极限。同时，Vision Pro采用的是OLED螢幕，这意味着更丰富的色彩和亮度。此时将会发生一个巨大的质变，用户可能无法区分现实和虚拟。

举个例子，苹果的官方网站上有苹果iPhone15手机的三维模型，如果你下载下来，旁边再放一部真实的iPhone15，乍一看，你有可能无法区分哪个是真的哪个是假的。再举个例子，Vision Pro主界面里有一个Environment的环境背景，其中一个场景是当你望向波光粼粼的湖面，你一度会认为自己真的身处湖边。我对这个阶段的显示效果定义为真实感。

图片来源：Apple

人类历史上还没有出现过一种显示技术会达到这种程度。

在此之前，我们对一台显示器或者电视最常用的夸奖就是显示效果很好，画面很大，画质很好。在此之后，我们会怎样去描述显示效果呢？当数字生成的虚拟物体从视觉上已经和真实物体相似，我们还会说画面很好吗？也许画面、画质这个概念都会消失。

去年6月刚开完Vision Pro发布会时，很多人都在嘲笑Vision Pro的外观设计，600多克的重量，还拖着一个长线的充电宝。我觉得这恰恰说明了苹果在这代设备上的核心思路，为了保证跨越时代的显示标准能够被消费者看到，才对重量、体积和外形设计进行了巨大的妥协，这是产品设计上的一个巨大的取舍。

Vision Pro产品图

2. 虚拟螢幕开始替代实体螢幕

毫不夸张地说，三维显示技术的突破将完全改变XR行业的底层逻辑。很多之前从来没有考虑的应用逻辑和以前曾经失败的尝试都可以重新开始设计和考虑了。

我们先来谈第一个影响和对应的一大类应用：虚拟螢幕替代实体螢幕。

我首先想到了iPad发布会。iPad发布会上，乔布斯提出了一个问题，市场上是否会容纳一种新型的设备，这是第三类设备，介于智能手机和筆記型電腦之间。这个设备在做一些重要任务时的表现能显著超过手机和电腦才能被市场接受，他接着举例，比如上网，查看邮件，观看欣赏照片视频，听音乐，玩游戏，读电子书。在这些应用上，第三类设备可以提供比筆記型電腦和智能手机更好的使用体验，否则没有存在意义。

通过历史，我们可以站在更高的一个维度去看待这个问题，你会发现过去五十年，人类不断地制造各种设备，智能手机、Pad、电腦、电视、投影仪。这一系列设备，可以被认为是一系列从小到大、比例不一的螢幕，从横屏到竖屏，从4:3到16:9到21:9，各种各样。而这一系列设备又被用来适应我们所处的不同环境，完成不同的任务。

一揽子设备的历史验证了人类需要各种不同的螢幕去应对不同场景的需求。

根据实际的用户体验，在20PPD的清晰度下通过VR里生成的虚拟大屏观影大致等于720P的真实平面显示器。因此，在习惯了接受1080P的主流平面显示器下，用户对于之前VR的大螢幕显示并不感冒。但是在40PPD下，虚拟螢幕的显示质量已经几乎相当于4K显示器的效果。这意味着虚拟螢幕头一次可以和实体平面显示器正面PK。另一方面，Vision Pro采用的是OLED螢幕，这意味着丰富的色彩和高亮度。于是，无数个、无限大小、自由形状、近似真实色彩的螢幕突然出现在你身边的三维空间中。

图片来源：Apple

所以有时我在想Vision Pro的定价真的算贵吗？如果拿显示设备做对比，一台4K投影仪一万块钱，一台SONY的4K旗舰电视接近四万块钱。一个几十平的影音室不算房价只算设备和装修需要几十万。而Vision Pro是两万五。

更夸张的是，电视、显示器已经发展了几十年了，而Vision Pro还只是第一代。Vision Pro2会怎样，VisionPro3会怎样？

传统平面显示设备走向没落的倒计时已然启动。

3. Vision Pro重新定义MR

让我们再来看第二个突破，MR的突破是一个组合的突破。

Vision Pro重新定义MR，可以从三个方面来理解。

第一，VST。VST是实现MR的关键技术之一。

普及两个概念：VST（Video See-Through）和OST（Optical See-Through），分别指透过摄像头的视频技术看到现实世界和透过光学镜片直接看到现实世界。

OST的优点非常明显，等于戴上眼镜透过镜片直接看外界，但是OST的缺点也非常明显，普遍很难在镜片上显示数字内容，会面临FOV（Field Of View，视场角）小，色彩、亮度都不够的情况。另外，由于是同时接收光信号和数字信号，让用户感知到虚实融合也会更难。这里面的差距过于巨大，以至于完全解决至少需要下一代的显示技术。

VST正好相反，显示数字内容天然容易，能高质量地实现大FOV，丰富的色彩和自然的亮度。另外，由于VST最终都是转化为数字信号呈现，实现虚实融合也更容易。难点在于高分辨率，以及通过摄像头捕捉现实世界、生成视频、传输视频带来的延迟。显示分辨率的问题前面已经提过可以解决，为了解决延迟，Vision Pro采用了一颗和M2芯片级别相同的芯片R1来解决这个问题，将延迟缩小到了12毫秒。

图片来源：Apple

过去的十年里，Meta的Quest系列的VST相当长一段时间都是低分辨率、黑白，并且带有大量畸变。直到去年底的Quest 3才到了一个基本可用的状态。而HoloLens采用了OST方案，随之而来的缺点就是FOV小，色彩差，无法发挥三维显示的威力。

两相比较，VST能同时做到显示优质的数字内容和现实世界。

《Battle Talent》游戏制作人、赛梦科技创始人刘瀚阳在研究MR时曾有一个观点："清晰的VST本身就是Killer App。"

大概在Quest 3上线一个月后，我们发现大量的VR游戏开始提供MR模式，而且还是最基础的VST模式，但用户的反馈已经出乎意料的不错。

而Vision Pro的VST效果会更好。

图片来源：Apple

第二，我想讲讲空间计算的能力。

广义上我们可以认为空间计算包含一切，三维显示、三维互動、VR、AR、MR都是它的子集。这里空间计算首先是和平面计算相对应的。平面计算设备处理文字、图片、语音、视频。平面计算机包含智能手机、笔记本、Pad、电腦。而空间计算则是处理空间中的数据，感知、理解空间中的各种实体和虚拟物体。头戴式显示器就是典型的空间计算机。

狭义上，我认为空间计算就是指计算空间中的物体数据。在Vision Pro中，空间计算的应用刚刚开始。一个虚拟的物体放在物理空间中，要想和现实无缝融合，则需要空间计算。物理空间中的环境光照，遮挡，物理实体的形状，理论上来说，都会影响虚拟物体的表现。举个例子，一个虚拟的电影巨幕，如何像真实的巨幕，那么地上一定需要实时呈现光线的折射倒影。一个虚拟方块扔到实体的桌上，如何有真实的互動，那么一定要提前识别桌子的高度和平面，同时做出反弹的互動。

通过空间计算，数字内容将在物理空间中更加逼真，也能够真正意义上做到和物理空间融合。

这里不得不说到为什么Quest Pro（Meta的首款MR设备）表现那么差，很多问题并不是想不到，而是因为Quest Pro没有自家的芯片，也没有专有MR芯片，使用的是相当于高通几年前手机性能的XR芯片。这和Vision Pro能用上苹果的M2芯片是完全无法相比的。

第三，我们再看Vision Pro上的数码旋钮（Digital Crown）。这虽然是颗小小的旋钮，背后却蕴含着惊人的产品洞察。

我们知道，Quest系列进入MR状态是通过輕按兩下两下头显实现的，輕按兩下后从VR进入完全可透视状态，再次輕按兩下又回到VR状态。这是一种二元切换的感觉。

苹果Vision Pro用的是数码旋钮，轻轻转动旋钮，对现实世界的透视可以从0到100%逐渐完成，0的时候是完全看见外面，100%的时候就是完全沉浸在虚拟空间里。虽然苹果严格禁止使用VR/MR/AR这几个词，也严禁说自己的设备是VR设备。但是我想说数码旋钮恰恰实现了从VR到MR的切换。Vision Pro可以作为VR设备存在，当旋钮转到100%时，你就进入了fully immersive（完全沉浸）的世界，那就是VR头显。当旋钮在0到100%范围内时，它就是个MR头显。

这里面精彩的是从0到100%之间的连续过渡。这里我想进一步谈谈我对于信息技术的理解：人类对于数字内容的需求是一个连续的过程。

这和前面描述人类需要各种各样的螢幕需求有相似之处，但是又略有不同，我希望我接下来的分析能说清楚而不至于混淆。

我们生活在现实世界，比起100%的完全沉浸的VR，人在大多数时候对数字内容的需求并不需要到100%，而是在保证和物理空间有感知、有互動的情况下，增加数字内容，让数字内容和物理空间之间有一个平衡。

在办公室，你也许只需要眼前60度的范围内有数字内容，其他空间用来和周围同事沟通交流。在咖啡厅，你也许只需要眼前30度的范围内有数字内容，在嘈杂的人来人往中，既有对空间的感知保证安全，又可以舒适办公。在客厅里，你可以让正前方的数字人给你上一堂健身课，同时回应小孩父母跟你打招呼。最后，夜深人静的时候，你可以享受一个人在书房不被打扰的、完全的沉浸感，即VR。

国际上研究MR有一个概念叫虚拟连续体，描述在完全虚拟（虚拟现实）及完全真实（现实）之间的连续性尺度。这是从学术研究的角度出发。

我觉得从用户需求角度理解， MR则可以通俗理解为我们生活的物理空间中数字内容所占的比例，VR和AR是不同比例的MR。100%是VR，0%是完全物理世界，0到100%之间是MR。

通过数码旋钮Digital Crown，我们可以高度自由地控制数字内容和物理现实之间的边界。

4. visionOS是史上第一个空间作業系統

Meta在过去十年验证了三维互動的价值。Meta的团队也对Android的性能进行了魔改使之能够适应VR的使用。但是从作業系統的互動层面上来说，Quest系统还是单視窗的Android体验。典型的Quest应用操作逻辑是进入主界面，通过搖桿射线选择一个应用，然后进入该应用。

而visionOS则是在参考iOS和macOS后全面迭代的全新作業系統。

如果说Windows是人类历史上第一个主流的平面多視窗图形作業系統，visionOS则是人类历史上第一个空间（三维）作業系統。

第一个特点是多視窗和多物体。

你可以自由地将多个視窗和物体放在360度空间中的任意位置，并任意放大、缩小、层叠。你可以分别放置超大的全景照片、超长的文档、浏览器、媒体播放器，甚至是虚拟物体。如果你阅读开发文档的话，你也会发现苹果将空间中的元素抽成了三类，分别是Windows、Volumes和Spaces。

来源:Apple

所以我觉得visionOS也可以称为史上第一个空间多視窗多物体作業系統。

第二个特点是手眼互動。

我这里想说的是，visionOS其实做了一件非常重要但容易被忽略的事，就是OS层面的互動逻辑。Quest没有OS层的大规模互動，因为它是单視窗，迅速进入应用的一套流程，并没有在空间中和多物体多視窗互動。苹果对OS层的设计显然要复杂很多，对空间中元素也做了充分的定义，不论是多物体还是多視窗，必须要有一种互動方式来处理，这种互動既要自然，又要高效。所以苹果应该是花了相当大力气来设计这套手眼互動逻辑。

这套互動第一个部分是手，毫无疑问，手是一种更加原生的互動方式。Quest也一直在尝试。手势追踪是XR设备迈向大众的必经之路。但是难点是如何用手同时兼顾虚拟物体和虚拟視窗的互動，这是两种完全不同属性的元素，但又出现在同一空间中。在这个基础上还要足够高效和自然、节省能量。苹果设计了一套非常简洁的手势互動逻辑，通过手指捏合、点击与手腕轻微移动来完成。

来源:Apple

第二个部分是眼。我们操作平面电腦进行互動的步骤是，眼睛先看上去，然后滑动滑鼠，然后再按滑鼠进行点击。我们操作Quest系列设备时，Meta的方案是使用搖桿射出一根射线，然后用射线指向按钮，通过按搖桿按键进行互動。

苹果的眼动在这里起了一个"空间滑鼠"的作用，不需要手腕和手臂移动。看到哪，哪里就会高亮，然后通过手指一捏表示选中。三步并做了两步。

图片来源：Apple

总体来说，我认为手眼互動是目前空间OS层面最低摩擦、最自然、最高效的方式。这也是Quest系列从来没有触及过的问题。

这是一种无比奇妙的感觉。你会觉得你有超能力。你甚至会拖拽、放缩視窗玩上一整个小时，就像小孩子在房间中随意堆满玩具一样。

另外，XR社区的开发者都因为Vision Pro没有提供6DoF（6自由度，支持三维互動）的搖桿而感到费解。我倾向于认为这只是个时间问题，当前这个阶段苹果和Meta的思路不同，Vision Pro提供的手眼互動是在OS层为了多視窗多应用的互動，而Quest提供搖桿互動和手势追踪是在单应用下的互動，苹果会先做OS层再做应用层。我这里有个猜测，随着版本的更新，第二步Vision Pro就会更新类似Quest里的裸手追踪，第三步，就会增加对搖桿和各种控制器的支持，让我们拭目以待。

5. 二维应用的三维空间化

讲到这里，其实苹果的思路已经非常清楚了。Vision Pro为什么会这么设计，为什么会选在这样一个时间点发布也非常清楚了。

苹果的第一步，大概率是想尝试让已有生态中的百万级的二维应用集体变为三维空间应用（苹果称为空间应用）。而这一切的基础，高度依赖一套能让虚拟和现实得以融合的底层技术基础（显示、VST、互動等）。而十年前，这套技术基础还不存在。

用户曾经熟悉的二维应用都能在三维空间中使用，而在这里，曾经的每一个应用将化为空间中的一个切面，一个視窗。三维给了二维应用更加自由的使用方式。这有效弥补了三维计算设备在初期应用的不足，要知道目前Quest商店正式上架的游戏和应用总数也就大几百个。

所以我们回过头再来理解苹果Vision Pro发布会上为什么会说兼容百万个iPad的应用，就不会感到奇怪了。这其实是在说，空间计算下的第一大类应用就是：向下兼容以前所有二维应用，然后通过空间作業系統让二维应用变得更好用。

再往下想一步，往后的数十年里，所有二维应用都会不同程度的三维空间化，从简单地兼容、移植到对无限螢幕、空间、三维互動进行优化，最终成为原生的三维空间应用。

苹果已经率先打了一个样，官方应用已经展示了从视频到空间视频（Spatial Video），从FaceTime到Persona（3D版FaceTime），从2D版Apple TV到3D版的剧院式观影。

而第三方应用，很快大家应该就会使用到，比如Zoom，TikTok，Office，Disney+等等。

这让我想起十几年前，各大互联网公司内部都会有一个部门叫无线业务部，今天，没有一个部门叫无线业务部，但每一个部门都做移动应用。移动互联网的今天，就是XR的明天。今天，Meta的XR部门叫Reality Labs，字节的XR部门叫Pico，腾讯也有单独的XR部门，多年以后，互联网公司每一个部门都是XR部门但又不会叫XR部门。

三、Vision Pro往后的一些预测

简单预测一些未来几年可能发生的事。

首先是短期XR产品的标准形态几乎已经完全确定。苹果Vision Pro的设计加上XR行业前十年的经验已经足以勾勒出一款真正意义上相对完美的中期MR头显方案。全行业资源将会迅速投入到这一款产品中来。

有业内人士因为初代Vision Pro没有搖桿而认为Quest和Vision Pro会走两条路，我认为这两条路终究会合在一起。在开发者、用户的反馈下，Vision Pro大概率会在未来一到两年内支持6DoF搖桿和各种控制器。我认为Vision Pro的策略大概率是在立足于已有二维平面生态的基础上，逐步完成对三维空间生态的支持。同样Meta也一定会全力迅速学习Vision Pro，我们应该会在不久的将来看到Meta的这类Vision Pro产品。

如下是我看到的短期设备的可能标准：

硬體：30-40PPD显示+VST+手眼互動+裸手追踪+6DoF搖桿（或其他控制器）

OS：对标visionOS

生态：苹果和安卓生态下的二维应用+三维原生应用

价格：1000~2000美金

后续中期产品迭代的策略也非常清楚。通过更便宜的价格实现更高或同等规格的显示和性能，以及更轻薄的外形和重量。

Michael Abrash提到的未来VR头显形态（现在看来更像MR头显），素材源于Connect大会视频

再谈一下生态的发展，因为Vision Pro开创性的对二维应用的支持，可以想象后续的几年里，苹果和安卓阵营的开发者会有一整批加入进来，这是一批全新的开发者，会从不同的角度理解MR。另一方面，性能的增加给了开发者更多的发挥空间，一定会出现数款现象级应用。

当然很多人听到这么说可能会跑步入场，我想说，倒也不用那么急，总体XR行业的增长还是在一个相对平稳的速度，因为硬體还是在早期，所以更重要的还是理解设备的特点，理解三维空间，理解MR，一步一个脚印来。

四、再谈智能眼镜和AI眼镜

花开两朵，各表一枝。一直以来都有另一条路线。就是放弃高性能，不做大而重的头显，而是直接做眼镜形态的智能眼镜。这种形态的产品优势显而易见，就是可以保持长时间佩戴，并且可以带出街。

研究智能眼镜，让我们先研究眼镜。让我们回到一个根本的问题，就是人为什么要戴眼镜，并且是除了睡觉几乎醒着的时候都要戴。因为眼镜可以矫正视力，不戴眼镜你就看不清楚东西。我想要非常强调眼镜的这个基本功能，因为这个功能太过重要，重要到了让人习以为常，以至于大家都忘记了这个基本功能的存在。并且，眼镜通过过去两百年来的产品迭代，对外形对重量都形成了严格标准。比如近视眼镜低于30克，墨镜低于40克。当然还有一些人群和特殊场景对重量还有20g以下的需求。

一句话总结就是，30克以内（也有人说是40g）、符合日常审美、矫正视力的眼镜，才能让用户戴一整天。这也才能造就眼镜Always On的特性。

高于这个重量或者对外形的变化，都会对产品产生巨大负面影响。比如说，比起动辄几百克的头显，七八十克的眼镜已经很优秀了，但是由于比普通眼镜还是多了很多重量，你就无法要求普通消费者像正常眼镜一样佩戴一整天，消费者就无法做到Always On。而基于Always On的后续产品设计都将失效。当然，在一些特殊行业特殊环境会有一些特殊的产品形态成立。

所以我们再来看看这条路线的产品历史，从Google Glass 开始，由于外形怪异，所以没被大众接受。后来有了Ray-Ban Stories和Spectacles，外形逐渐正常化。终于到了Ray-Ban Meta，这一代几乎和一款普通墨镜有一模一样的重量和外形设计。翻看大量的用户评价，都会说到，这至少是款Ray-Ban的墨镜。就是这样，虽然我们讲音频、拍照，以及后期加入AI的智能功能，但消费者首先在意的是设计，是它是否socially acceptable。

除了智能化的功能外，Ray-Ban Meta也在探索与AI的结合。这个探索刚刚开始，严格来说，目前还非常早期，摄像头拍摄图片后通过大模型理解再通过语音返回，算是万里长征第一步。

和MR头显相比，这一条路线往后会遇到更多挑战，因为在这样严苛的物理规格限制下，增加显示，增加性能都面临至少10倍难度的挑战。所以这条路线往下首先需要底层技术的革新。比如更好的光波导方案，更好的Micro-LED方案。同时大家也在寻求云计算来解决端侧性能不足的问题。

所以Ray-Ban Meta走成功了第一步，但是第二步和第三步的产品迭代，如何在科技、工程、产品需求之间找到平衡点，使智能眼镜进一步智能化，才是真正有挑战的地方。另外，随着AI能力的加强，是否存在一条道路能够弯道超车，出现超级有用的AI眼镜，也是值得关注的，让我们拭目以待。

五、真正的混合现实和重新定义的新现实

前面我讲的都是从产品、从行业层面的意义。更多通过看历史，看产品，自下而上地分析行业走向。

我这里想要站在未来的角度，再深入探讨一下未来XR技术对现实世界的影响。

我们有超小体积超高分辨率的光学显示技术，我们有空间作業系統，我们有同时显示现实和虚拟的透视技术，我们有感知环境的计算能力。

我们再来谈一个已经持续了几十年的概念，MR（Mixed Reality）混合现实。先进的显示技术保证了可以生成以假乱真的数字物体，VST透视技术保证了数字信息可以出现在现实世界中，空间作業系統确保了这些物体是可以互動的，空间计算能力确保数字信息可以和物理空间融合。

在这样一个标准下，这已经不是简单的信息分发，信息多少的问题，也不是多少虚拟螢幕替代多少实体螢幕的问题。而是我们面对的现实将同时充满由比特构成的数字物体和以原子构成的物理实体。在我们人类文明的几千年历史里，我们面对的始终都是物理世界，面对的始终是物理实体出现在物理空间里。哪怕经历了信息技术快速发展的过去50年，我们依然面对的是人们带着各种数码设备，设备里的芯片处理着各种数据帮助我们提升效率、改善生活质量。

我有次和朋友喝咖啡，半开玩笑地跟他说："我们以前总是用互联网渗透率来讲一个行业发展的程度，但如果我们讲数字渗透率的话，讲数字内容对物理空间的渗透，现在桌上的手机大约也就渗透了1%，还有100倍的增长空间。"

从2024年往后，一部分人将逐步开始适应一个新的世界，这个世界并不是Metaverse，并不是大家争论的完全虚拟的世界，大家也并不会被虚拟世界隔绝，而是一个同时包含数字内容和物理空间的世界，比特将真正参与到构建我们的全新现实中来。

数字内容，将不再是螢幕中的数字、界面、画面、视频。而是一个真实存在于现实空间中，可以进行互動的数字实体。

古往今来，不乏哲学家探讨虚拟现实和物理现实的意义。从柏拉图的洞穴之寓，到希拉里·普特南的缸中之腦，再到电影黑客帝国。我们总是把虚拟和现实二元对立来进行讨论。然而事实是，对于我们绝大多数人，我们并不需要从红色药丸和蓝色药丸之间进行选择。

真正需要我们接受的未来依然是现实世界。只是这个现实世界和之前有点不太一样。这个世界是由比特和原子共同构成。摆在我们面前的是，如何处理数字内容和物理空间的关系，如何建设一个由数字内容和物理实体共同构成的新现实世界。

"互联网+"将变为"数字+"，而"互联网+"后面的行业，将变成"数字+现实"。

百年后，又有哪些物理实体是必须存在的呢？又有哪些前所未有的数字内容会被创造出来呢？恐怕根本不需要一百年。十年内，世界就会变样。

也许我们最后会发现：原子和比特是一码事。

本文来自微信公众号：琉璃创造（ID：llcreator），作者：徐梧（XR天使投资人、猫眼电影创始人、真格基金投资合伙人。作者微信xuwu2071，欢迎交流。添加时请注明公司、姓名。）