现如今,日本等国家少子化与老龄化的日趋严重,劳动力也变得越来越紧缺,工作方式的改革又需要业界提高生产效率。为同时解决这两大难题,利用机器人实现业务自动化的RPA(机器人流程自动化)技术引起了社会广泛关注。以金融业为主的各个行业已开始引入RPA技术,并取得了显著成果。比如说,实现了自动创建文档与录入数据录等功能。
目前,市面上已经出现了能够将语音自动转换成文字的人工智能软件。但由于精准的文字转换难度超出想象,对于会议、演讲等记录工作,我们不得不继续采用人工方式。
我们该如何解决这一问题呢?――东芝给出的方案是全新开发的人工智能语音识别系统。
为了解人工智能语音识别系统的需求背景和开发过程需要突破的技术难题,我们咨询了东芝株式会社研究开发中心的两位负责人——芦川先生与藤村先生。
一、快速准确地将语音转换成文字,并通过清晰字幕实时显示!
东芝一直致力于拓展智能媒体领域的业务(智能媒体是对人类语音和图像进行知识处理,并加以灵活应用的技术)。长年积累的技术开发经验极大地推动了人工智能语音识别系统的开发。
此次开发项目的研讨工作始于2015年。那一年恰逢“信息无障碍”环境建设的风口,日本政府号召民众,努力打造一个便于残障人士无障碍地获取各类信息的社会环境。对此,东芝早早就开始了通用设计产品和服务的开发工作,建立了成熟的通用设计(UD)顾问制度,并邀请身体有残障的员工参与产品开发。
芦川先生表示:“听觉障碍人士的普遍心声是希望实时参与会议和讲演,而不是通过事后查看文字记录的方式来了解会议与讲演内容。我们的计划是引入一个能够自动显示实时文字信息的字幕,方便听觉障碍人士了解相关内容,从而帮助残障人士实现‘信息获取’与‘效率提升’两大目标。人工智能语音识别系统的开发工作正是朝着这两大目标进行的。”(芦川先生)
株式会社东芝 研究开发中心
人工智能媒体实验室 研究主任 芦川平
二、提高算法的准确度,语音识别率高达85%!
接触过文字转换的朋友都深有体会:将对话、讲义及讲演等语音忠实、完整地转换成文字,反而会变成一篇晦涩难懂的文章。转换后的文字信息会出现很多冗余的内容,比如:“嗯”、“那个”等无意义词语,以及对理解内容毫无帮助的随声附和语句等。
此次的人工智能语音识别系统能够精准地识别出说话人的语音,并且可以分辨出无意义的词语和停顿部分。这一功能对于提高工作效率极为重要。人工智能的核心是算法,据说为了提高算法的准确度,开发团队设立了各种各样的课题并进行了深入研究。
“在开始阶段,我们屡屡碰壁,发现提高识别精度是非常困难的一件事。我们的目的不在于开发和研究本身。说到底,我们的目的是为用户带来方便。通过采用日渐流行的LSTM1模型以及CTC学习2手段,能够根据语音特征,识别出人类特有的无意义词语、停顿等部分”(藤村)
1 LSTM(长短期记忆):RNN(递归神经网络)的一种高级形式,其隐藏层中含有递归结构。能够对长期依赖关系进行学习,而这种学习能力是传统RNN无法实现的。
2 CTC(联结主义时间分类):针对输入输出的序列长度差异问题,通过引入空字符和设计损失函数的方法,来导入RNN的手段。
株式会社东芝 研究开发中心
人工智能媒体实验室 主任研究员 藤村浩司
传统的语音识别系统是采用分析波形的方法,将不同波形的语音确定为相应假名,例如:“ア”或“イ”等,然后进行分析。但是,无意义词语和停顿的波形千变万化,存在无数种形式,采用逐一分析的方式是无法穷尽的。
“无意义词语是填充话语之间的空白部分,而停顿则是话语之间的休息片断。通过LSTM模型能够把话语中的这些部转换为统计模型,然后再通过CTC对模型进行识别训练。这样一来,就能够检测出拥有无数种形式的无意义词语、停顿部分了。
目前尚无一家公司能够开发出完全准确的语音识别系统。更广阔的开发空间和更高的技术等待着我们去探索。我们的语音识别系统目前能够支持日语、英语、汉语三种语言,但这远远不够,我们的终极目标是让不同语种的人士可以围坐于圆桌旁轻松畅聊,让科幻小说和漫画中的未来场景在现实中一一实现。当然,那需要超高的准确度,可以说我们开发工作就是让梦想照进现实。”(藤村)
目前,我们的人工智能语音识别系统识别精度很高,在同行业具有很大优势。当我们利用外部演讲机会进行实证(实际验证)实验时,语音识别率平均达到85%。而且无需对识别结果进行编辑,也不需要相关人员事先进行学习,就能理解发言内容。未来我们将继续提高语音识别准确度,研讨如何将其应用到人工智能交流系统「RECAIUS™」领域。
我们也在进行相关应用程序的开发。比如说,面向听觉障碍人士开发的实时字幕显示功能。由人工智能检测出的无意义词语和停顿并不是被全部删除掉,而是以浅色字体形式显示在字幕中,让听觉障碍人士意识到这些词语的存在。这是充分听取残障人士们的意见后,从他们的角度出发,制定的精细化字幕显示方案。
声音自动字幕系统(左)和字幕显示图像(右)
“对我们而言,像‘嗯’、‘那个’这种无意义词语只是会影响我们的阅读。但是,听觉障碍人士希望获取到完整的信息。他们通常是跟随说话人的嘴唇运动来阅读字幕,如果将无意义词语和停顿部分删除,就会给他们带来‘好像说了些什么,但字幕上没有显示’的感受,从而产生焦躁情绪。
因此,我们将无意义词语和停顿部分也保留在字幕中,但为方便阅读,将这些部分显示为浅色字体。当我们需要保存记录时,可以删掉这些部分,制作成一份简洁的文档。”(芦川先生)
三、用于制造业的人工智能已见雏形,在生产现场发挥真正的价值!
2019年3月,我们有幸与DWANGO株式会社合作,通过NICONICO网站对“第81届信息处理学会全国大会”的实况进行现场直播,此次直播采用了带有实时字幕的视频形式。
为了早日投入商业使用,东芝开发团队正在努力提高人工智能语音系统的识别准确度和各项功能。此外,东芝面向的不仅是办公业务,还包括生产现场。
“现实情况是,几乎所有办公环境都未将人工智能语音识别系统作为一项服务加以灵活应用。在我看来最理想的状态是,人工智能语音识别系统能够得到用户信赖而被广泛应用,最终成为一项日常业务。比如说,我现在所说的这些话能够被完整地识别,并且记录成业务级别的文档形式,同时还能根据发言人的不同,分辨并区别记录。我们要实现的目标正是这种方便可靠的人工智能语音识别系统”(芦川先生)
“目前,语音识别业务并不普及,生产现场也是如此。但是,在维修检查时,以及工厂的某些特定场景,确实需要用免提电话记录声音。在这种情况下,人工智能语音识别系统一定会大显身手的。将语音识别系统无缝融入生产现场,便于工人们将产生于现场的智慧与经验记录和传递。当然,这需要进行长期的语音识别系统开发,并在生产及基础设施现场积累足够的知识经验后才能够实现。我认为这正是东芝开发语音识别系统的根本目的之一。”(藤村)
目前,日本存在着劳动力紧缺的问题。预计进入“2020年代”后,劳动力紧缺问题将更加严重。我们的当务之急是节省人力,提高生产效率,确保听觉障碍人士顺利获取信息。在未来,办公环境和生产现场对于人工智能语音识别系统的需求一定会不断增长,人工智能语音识别系统必将大展身手。