本篇文章1457字,读完约4分钟

世界知识产权组织( wipo )日前发布了微软申请的“无声语音输入”( silent voice input )专利,丰富了“机器听懂人话”的场景。

虽然评估招聘者是否能接受该专利的替代语音输入方法及其专利的市场前景并不容易,但许多看似天马行空的研发如果能找到正确的市场和合适的推广方法,将会成为很大的商业渠道

验证了语音对话技术的另一种可能性

语音识别技术距离完美还很远,嘈杂的环境、发音不清晰的词汇、俗语、方言混淆了机器,开发出了更加准确、隐私的语言识别技术,仍然是包括微软在内的产业和学术界的首要科学研究方向。

一般来说,语音输入首先发音,然后需要比较安静的环境。 根据微软的这项专利,只要将麦克风等设备靠近嘴,该语音输入处理方案就可以捕捉到耳朵这样极低的语音信号,对周围的噪声进行滤波。 除了自己以外,别人听不见或听不见。

“无声语音识别暂难成花费级产品”

当然,说话方式可能需要练习。 通常,我们在说话时呼气,微软的处理方案要求采用者在吸气时执行语音输入。

另外,语音输入的性能不断改善,但除了“逗”siri外,很少有人在公共场所认真用语音输入,害怕打扰他人,也有语音复制隐私的隐患。 在这种情况下,微软的专利是适当的处理方案。

麻省理工学院的研究人员开发的新人机界面“alterego”更魔幻,骨传导耳机包围着顾客的耳朵和下巴,电脑系统解决和翻译耳机接收到的数据,浏览时的“沉默”

这个系统就像“肌电假体”,当你准备做某种行为时,大脑会告诉你肌肉怎么做。 同样,一想到某个词,大脑就会向脸部和喉咙的肌肉发送信号。

最初的研究者arnav kapur先生说,用某种方法混合人类和机器的目的是让人类自身认识到内部。

如果这个设备真的商用了,确实很有意义。 但是,目前的无声语音识别处于技术验证阶段,这到底是一种无用的“情感技术”,还是能够发展成可以用于特殊场景的产品,还有待行业探索。

工程师们还在努力弥补语音技术的缺陷

语音技术不仅具有典型的“赋能”特征,而且是当今人们与人工智能交流的最重要接口,已经给焦土战一样激烈的“百箱大战”和语音技术市场带来了许多幻影。

事实上,目前许多基于语音技术的硬件产品与智能服务的交互体验仍存在诸多缺陷,研究机构和产业企业在技术开发方面不断做出完全的努力。

微软资深技术院士、微软云和人工智能事业部负责人黄学东博士,是微软语音技术创始人,微软语音识别、语音合成技术研发团队都是他一手组建的。

在黄学东的指导下,年10月18日,微软语音团队识别研究小组在switchboard语音识别标杆测试中刷新了自己的记录,错误率仅为5.9%,达到了人类的水平。

306天后,这一纪录再次被微软刷新,失误率降至5.1%,超过了专业速记员的误差水平,学术界将其视为“人工智能感知上的重要里程碑”。

微软执行副社长沈向洋表示:“虽然该语音识别系统还存在应用场景的限制,但我相信在未来几年,机器将完全超过人类的识别水平。”

各类科研机构为实现语音识别精度的“人际对等”奋斗了20多年,但目前在噪声环境下遥远的麦克风语音识别、方言识别、训练数据有限的特定话语风格,或较少人采用的语言语音识别等尚未达到人类水平

另外,switchboard是全球语音研究者20多年来使用的通用测试数据集,许多技术企业和组织进行了语音相关研究,拥有全球开发者多年的技术积累,但测试结果可以“转移”到现实环境中

正如黄学东所说,公开测试、发表的学术文案,与现实产品不能完全分割,但在成本层面的产品和商业场景中,需要不同的评价标准。 (记者刘艳)

标题:“无声语音识别暂难成花费级产品”

地址:http://www.7u0.cn/zqjrkd/6002.html