扎克伯格亲自写的智能家居AI

*该文被雪球删除

扎克伯格发布了自己的AI程序Jarvis （这个名字有点熟啊！哈哈！），可以控制家庭智能家居，实现开关家电，播放音乐，识别访客等功能。这位大企业家亲自花时间写代码，可不是吃饱了没事干，更重要的是获取对AI的第一手资料和感受。

原文是英文，我做了一点节选，将就看看吧。主要不是看故事，而是看他的实现思路和想法，为未来的人工智能概念寻找可能的途径。

首先，扎克伯格百忙之中自己码代码的目的很明确：学习AI技术当前的状态（state），并了解到还有很长的路要走。掌握感性化的印象，并设想未来智能家居的概念。他通过建立了一个简单的AI，可以通过语音（talk），从电脑和手机控制智能家居，包括灯、温度、电器、音乐和安全。

编程过程中使用了自然语言处理（NLP），语音识别，人脸识别，强化学习，编程语言是python和PHP，objective C 。

思路： 连接家庭

首先一个挑战是，每个系统都有不同的协议和语言。电灯，集热器，门锁和音乐，三星电视，NEST CAM等等。需要对API做反向开发，以便从电脑发出指令到设备。

很多设备都不能上网，但是可以使用联网的电源开关代替控制。

自然语言

实现用自然语言与电脑对话有两个步骤。首先可以通过字符信息（TEXT），之后通过语音，翻译成字符信息后再交给电脑。

最开始从读取关键字开始，如“卧室”、“灯”、“打开”，定义我的操作：打开卧室的灯。很快电脑需要学习同义词，如“family room” 或”living room“ 代表同一间房间。这需要建立一个能教给电脑新概念的方法。

对AI来说，理解概念最重要。如果我告诉AI：“打开我办公室里的空调“，意味着我和别人指的”办公室“ 不是同一间房间。 ——AI曾经出错过。如果未指定特定的房间，他需要知道你在哪，否则会错误的操作别人的房间。

音乐更复杂了，对于NLP而言，大量的关键词是一个困难。对于灯来说只有开关两个状态，而音乐有大量的状态（歌手，歌名等），难于查找和定位。如说：播放X，可能代表好多个意思。考虑到更多的关联情况，比如播放类似的歌曲，播放和XXX类似的歌曲，或者播放XXX的歌曲，这些指令听起来很近似，但意义完全不同。播放特定的歌曲，推荐一个艺术家，或是建立一个playlist，通过正负反馈，AI可以学习这些差异。

对于AI来说，更多的内容有助于其理解开放性问题。我要求AI：“播放一些音乐“，通过查询我之前的播放记录，可能播放一些我不想听的东西。如果我认为不对，我告诉它”这个不是XXX,播放一些XXX“，他可以同时学习分类，并立即调整。AI同时知道我或别人在对他说话，所以可以针对每个人做些个性化的调整。我发现我使用开放性问题比特定问题更频繁。

扎克伯格认为，目前没有任何商业产品可以实现上述功能，看起来是个大机会

视觉和人脸识别

机器视觉的问题：移动跟踪，物体识别，人脸识别。

人脸识别较为复杂，因为相比随机物品的识别，差异性更小。但是FB有大数据呀～所以这些经验可以用在安防摄影机，让AI认出你的朋友们并给他们开门。

我安装了几个摄影机在门口的不同角度。AI现在不能从其他角度分别人脸，所以需要多个角度合成。我使用一个服务器持续跟踪摄影机并进行两个过程：首先，如果有任何人出现，做一个人脸识别，然后，查询数据来识别这个人是谁。如果识别了这个人，然后确认这个人在我想要的list里才开门，并告诉我它已经允许这个人进来了。

这种视觉AI用处很大，可以做很多事，比如知道你起床了并开始播放音乐，解决一些问题如“我在哪个房间里”，当我说“开灯”时，它就知道我在哪个房间，该开哪个房间的灯。

文字命令处理（信息BOT）

我做了一个移动端，可以遥控这个AI。指令通过一个消息BOT传输，这个不需要专门做个APP，只需要用FB的客户端即可（哈哈哈哈果然是老板市场都想好了）。通过手机直接用FB messenger 输入文字或语音指令。

输入任何的自然语言给AI，或是用语音，语音会先转换成自然语言再处理。如果有人拜访我家，AI会发消息告诉我谁来了，或者告诉我什么时候我该做什么。

相比语音，我更爱使用文字命令控制AI，首先是因为语音会打扰他人，如果我需要做的事情和所有人有关，比如播放音乐，可能用语音更合适，但是如果做私人的事情当然还是用文字。同样的，我也希望AI用文字和我联系，因为语音也会干扰别人，而且用文字你会感到更踏实。当我用手机时，我通常会用文字命令。

这和我们使用whatsapp和FBMSGR的经验相同，文字信息的增长量远高于语音信息。这可能预见着未来AI产品不能单独聚焦于语音识别，还需要一个私人的文字命令接口。如果你允许使用私人的文字命令，使用现有的平台（如FBMSGER,在中国就是微信）会比自己做个APP更方便。我一直对AI的文字指令处理BOT非常乐观，这个经验让我更乐观了。

语音识别

虽然我认为文字命令更重要，但语音也起到很重要的作用。最简单的原因就是因为快。你不需要拿出手机，打开APP，再开始打字，只需要开始说。

我为AI的语音设立了一个独立的APP，可以持续听我说话。文字BOT虽然可以做很多事，但是语音的摩擦太多了。我放了一堆手机在不同房间里以便可以在不同的房间里操作（持续收听，不挂后台）。看起来和亚马逊的ECHO很像，但是我惊讶于我和AI在不在家的时候的交流频率。所以用手机作为输入端比音箱更重要。

语音识别系统最近已经有了很大进步，但没有AI足够好的听懂会话内容。语音识别依赖于听你现在说什么和预测未来你说什么，所以结构化的语句比非结构化的语句简单得多。

另外一个有趣的限制——AI语音识别和机器学习系统，和大众的认识不同的是，他们是被高度优化在特定的问题上的。比如说，听懂一个人和电脑的对话和听懂两个人之间的对话是完全不同的。如果你训练一个机器学习系统，使用google 的搜索大数据，他们会很难以处理FB上人和人之间的对话。在这个案例里，训练AI分别你在近距离的对话和在更远的房间对话是不同的。就像ECHO一样。这些系统比你想象的还专精，这提示我们AI技术与通用系统还差很远。

在心理学角度看，如果你可以直接和一个system对话，你会比用文字控制一个电脑赋予更多的感情深度。一个有趣的观察是，自从我建立语音控制后，我也想加入一些幽默。一部分原因是他现在可以和MAX互动，我希望这些互动让她娱乐，但是AI似乎感觉像是在和我对话。我交给他一些随机和家人开玩笑的东西，还加入了一些经典的玩笑句子等。

AI科技刚刚够成为伟大产品的门槛，而且会在接下来的few years中更好。同时，我认为最好的产品还能够便携以及私人的联系（指的就是TEXT）

FB开发环境

作为CEO，扎克伯格自己写的这个项目。他希望从中学到AI目前的状态，但是这不是FB专业工程师的水平。

我们的价值观是 move fast ，这需要你能够以最快的速度编辑一个APP。当然这也包含私人项目。公司可以建立有效率的内部工具来完成这些任务。

下一步

我今后会天天使用这个AI并加以改善，以及加入新功能。下一步，我要建立一个安卓APP，并设置更多的语音识别终端，连接更多家电。我喜欢用AI控制我的big green egg 做饭，或是用TSHIRT大炮射出一件新T恤。

长期来看，我认为这个AI可以训练自行学习新东西，而不是我来训练他做特定任务。我将会花另一年来做这项挑战，并聚焦于学习“学习”是如何工作的。最后当然是公开并建立一个FUND来推广新产品。

总结

建立AI是有趣的智力挑战，给我对AI工具的直接经验，这对未来很重要。

我认为未来5-10年AI系统会在很多感官上比人更精确，如视觉，听觉，触觉等。当然也包括语言。令人印象深刻的是这些工具的技术有多强大，今年的经验让我对预测更有信心。

与此同时，我们仍远未理解“学习”是如何工作的。我做的这些事情，包括自然语言，人脸识别，语音等，都是通过更多基础的认知科技的变量。我们知道给一个电脑更多例子，它就能认识的更精确，但不知如何从一个领域中取得一个idea并应用到另一个领域。

无论如何，AI与我们的想象既近又远。AI很近，可以做很多人类希望做的强力事情，开车，看病，探索行星，理解媒体。这些会造成很大的影响，但是我们仍然不知道什么是智能。

这是一个很大的挑战，这个挑战有机会教给我比我开始想象的更多的东西。这些年我学习了AI，也学了智能家居和FB的内部AI工具。这种挑战很有趣，感谢follow，明年会共享更多。

我的总结

扎克伯格提出了几个大问题：

首先，接口不规范的情况下，要采用特别的办法来控制。

然后他认为NLP是基础，但是基于文字的自然语言更好，因为有时候特别是在移动端使用语音是不合时宜的。——这其实提示我们，对于人工智能应用，还是巨头们能做，FB和微信，是做文字命令最好的平台。你可以这样理解，你的AI是一个微信用户，你用微信跟他聊天，他再控制设备。

最后就是AI在处理会话等问题上存在问题，不具有通用计算能力，这点还需要改进。

但是他非常自信，既然愿意花这么多时间来做，肯定不是没事干，而且测试中使用了FB的信息程序控制AI，意味着FB进入AI和智能家居领域已经列入日程。再结合人脸识别功能，未来FB这方面的应用会非常丰富（比如说，允许一个指定的好友开门）。这也就提示了我们关于人工智能应用的方向和可能的路径。

Velaciela

雪球文集

扎克伯格亲自写的智能家居AI

发表回复取消回复

发表回复 取消回复

发表回复取消回复