语音控制:企业计算的下一个重大突破

如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

苹果Siri、谷歌助手、微软小娜、三星Bixby和亚马逊Alexa等各类设备和语音助手如雨后春笋般地出现,便折射出了一种趋势的变化:越来越多的用户,开始从屏幕靠视觉传达,转向用声音来传递和接受信息。

据 Strategy Analytics 的分析师透露,智能音箱已经成为了近年来发展最快的新硬件市场。到 2023 年,63% 的美国家庭至少保有一台智能音箱,而这个数字在 2014 年是 0.03%,2017 年是 16%。

语音技术在企业市场的应用潜力巨大

在过去的几十年里,随着技术的不断成熟,从穿孔卡片到键盘再到电脑鼠标设备的缓慢发展,计算机交互已经慢慢变得更加自然。

目前,触控界面几乎成了从相机到汽车在内的任何带有屏幕的设备的默认标准。现在也是时候迈出科技界的另一大步了:和公司的设备交谈。至少在很多电影中,人类已经实现了与电脑的交谈,从《钢铁侠》中的贾维斯到《星际迷航4:暗黑无界》中的著名场景,斯科特试图向一台80年代的电脑发出指令。

尽管语音助手已经在手机上使用多年了——苹果的Siri在2011年问世。但迄今为止,它们对企业环境的影响仍然有限。

而现在,计算能力和机器学习的进步使计算机在无需繁琐的编码情况下能够比人类更好地转录语音,然后准确地翻译出来。并且,新系统可以更有效地自我更新,从错误中吸取教训,而非需要人为明确的指导。

支持语音的设备数量也在持续飙升,预计今年将售出超过5000万台,到2023年,全球语音技术产业预计将达到1265亿美元。

对于工作人员来说,语音界面能够带来很多实际的好处,尤其是与繁琐的移动键盘相比。今年早些时候,斯坦福大学、华盛顿大学和美国百度大学进行的一项研究发现,移动设备的语音输入速度几乎是打字速度的三倍,两种输入方式的错误率差别不大。

语音接口的最大好处之一是可以为企业业务系统提供“通用远程控制”。谷歌已经证明,语音可用于将计算机连接到基于人的系统,例如在美发沙龙设置预约。

这种连接在企业界甚至更有意义。因为每个大型组织都有许多不同的应用程序,倘若想要在它们之间提供一致的工作流,通常需要进行编码,这可能很慢,而且代价昂贵。但如果所有系统都支持语音,工作人员可以很容易地从一个系统切换到另一个系统,而不需要任何显式集成。

此外,企业系统之间很可能会开始相互通信。在计算中实现通用标准是非常困难的,而使用语音(尽管明显效率低下)可能是实现系统集成的一个非常实用的短期解决方案。其实,在消费级市场已经看到了这一点,最近有消息称,亚马逊的Alexa现在可以与微软的Cortana“对话”,反之亦然。

所有这些进步都意味着,那些为企业的各种业务活动提供聊天和语音接口的企业数字助理正在成为主流。

语音也成为创新服务方式的一部分。例如,Workheld提供创新的现场管理系统,以提高施工和服务流程的生产率。该公司使用机器学习和文本分析技术自动将客户工作与最合适的技术人员匹配,并提供免提语音接口,帮助员工完成维护步骤。

威胁问题不容忽视

当然,目前语音接口仍然存在一些问题,例如,在有大量背景噪音的繁忙办公室中使用它可能很难。对此,科技公司正致力于寻求解决方案:例如,使用人工智能进行更先进的降噪,在人群中挑选出你的声音,进行唇语识别,甚至直接通过你的下巴检测你的话语,而不需要你大声说出来。

不过,这也带来了一些潜在危险。例如,所有这些麦克风都为非法窃听和个人跟踪提供了充足的机会。正如乔治•奥威尔的《1984》中写道的那样:“隐藏的麦克风总是有危险的,通过它,你的声音可能会被接收和识别”。

当算法能够创造出非常精确的合成语音时,公司的安全又将如何通过语音接口来执行呢?现在很多公司的“语音诈骗”已经凸显出该问题了:如果企业首席执行官独特的(但虚假的)声音被连接到系统上,要求银行进行非正常的电汇,会发生什么?或者更贴近实际一点,如果你十几岁的女儿(假的,但听起来声音是一样的)打电话给你说她有麻烦了,需要钱,又该怎么办?!

总的来说,今年企业中的语音应用应该会有巨大的飞跃,主要是通过与聊天机器人接口的可选语音进行交互。

编辑与翻译:张苏月