诺基亚(中国)研究中心亚洲交互方案组的负责人,王霞每天的工作就是与“语言”和“声音”打交道。语音和语言处理技术是这个团队的核心研究领域,其目标就是让用户能自由地与手机交谈,开发用于手机的语音识别、语音合成以及语音翻译技术及应用。
他们开发的“短信听写”(SMS Dictation)能实时地把人的语音转换成文字——这种“动口不动手”的短信息输入方式将在很大程度上节省用户在手机上的操作时间。短信听写只是一个例子,语音技术能解放人的双手,是重要的输入输出手段,在人机交互的许多方面都有用武之地。
在王霞看来,自己所在的研究小组由一两个人起步,发展到现在的10多个人,这本身也代表了该研究的价值。王霞对语音识别技术在未来诺基亚手机中的应用充满了自信和期待,因为在她的信念中有比尔•盖茨的那句话:“语音是下一代的用户界面。”
当然,语音识别系统仅仅是诺基亚(中国)研究中心所从事的诸多应用开发项目之一。在北京和上海,诺基亚的研究中心里有许多类似这样的小团队,它们专注于某个或某一领域内的精巧而彰显智慧的手机应用开发。用这些人的话来说,他们的工作都是诺基亚关注本地化应用体验的一部分。
“手机版”的“智能识别”
目前,手机和计算机俨然已经成为并列的两大应用平台。相比于计算机,手机的特点也决定了在业务应用开发时,要对它的运算处理能力、存储空间乃至功耗都有着更为精准的把握,在丰富应用和系统资源之间需要一种平衡的艺术。
以语音识别系统为例,PC平台上已经有许多商用系统,但几百兆甚至上G字节的语言模型还无法移植到手机上。基于手机的应用开发不光需要向相对匮乏的系统资源妥协,还在于要面对多语言和可用性的挑战,实现同样的识别效果。这就要求更多的精力花在用户研究上,要找出什么是手机用户最关心领域和性能指标,在有限的领域,比如短信息,对系统作优化。
目前,王霞小组的连续短信听写已经移植到了诺基亚的N800终端(PDA,基本配置为320MHz处理器,内存为128MB)上,基本可以实现实时的识别转换。对于更低配置的手机,他们在Symbian平台上也开发了孤立词的识别。
与有声的语音识别相对,对纯文本这一“无声语言”的识别同样商机无限。例如,目前,垃圾短信泛滥是个很现实的问题,在一个完整的通信流程中,网络和手机终端这两个环节都可以对垃圾短信实施拦截。但是对于运营商而言还有一个两难的选择,承担社会责任是必须的,但是以目前的技术能力会导致误拦截,由此也带来了法律风险,这一点让运营商有投鼠忌器的感觉。相比较而言,用户在终端环节上完成短信拦截显然要“安全”许多。在诺基亚,一种被称为“短信分类器”(Message Filter)的应用正在研发当中。它是一种基于文本语言理解的分类器,支持黑白名单和在线监控,这对于垃圾短信制造者来说也许是一个不好的消息。
除了语音和文字,类似于图像识别的手机应用也是诺基亚(中国)研究中心的一个课题——用户利用诺基亚照相手机拍摄任何物体表面上的文字后,安装于该手机上的即时翻译应用程序通过光字符识别技术进行文字的自动抽取和识别,并借助语言处理技术将其翻译成另外一种语言。这在诺基亚被称为即时翻译(Shoot-to-Translate)。
- 第1页:“手机版”的“智能识别”