我国十四五规划和2035远景目标战略性地强调了新一代的人工智能、量子信息、集成电路和脑科学与类脑研究等领域。其中,新一代人工智能人工智能领域集中解决基础理论突破、专用芯片研发、深度学习框架等开源算法平台的构建,学习推理与决策、图像图形、语音视频、自然语言识别处理等领域的实现。
最近召开的中国新一代人工智能发展战略研究年会也指出,要坚持和把握中央关于人工智能同实体经济深度融合发展的主线,按照以智能制造为主攻方向,推进制造业强国建设的总体要求。语音技术,已经大量地应用于智能音箱、智能家电、智能仪表、虚拟现实、增强现实、车载导航、呼叫中心数据挖掘、临床电子病历录入、远程医疗设备控制、工业机器人控制等等。另外随着5G网络和边缘云时代的到来,作为人机之间最为友好和重要的交互方式,语音识别技术的应用将更为广阔。
随着深度学习技术的发展,计算机视觉和自然语言处理技术已经取得了突飞猛进的进步, 人工智能领域称之为ImageNet时刻。随着机器学习技术和深度学习技术的进步,语音技术也取得了很大的进步,甚至一度被认为是“已经解决的问题”。但是,在目前技术飞速发展并日臻完善的同时,人们也越来越开始关注语音技术的亟待解决的技术问题,包括方言、重口音、小语种、混合语言、多说话人、复杂背景噪音干扰等产生的识别精度的显著下降等。很明显,语音技术还存在着诸多未解的技术挑战,主要包括在抗噪音干扰方面的鲁棒性、在适应口音方面的鲁棒性、对于标注数据的过分依赖等。国际和国内顶尖的AI公司和研究机构纷纷投入重金试图早日迎来语音技术的ImageNet时刻,包括Face Book, Google, Microsoft, IBM,Nuances,科大讯飞,中科院声学所,中科院自动化所,清华大学和北京大学等都做出了非常优秀的探索工作。 中国是一个多民族、多语言、多方言的国家,共有80余种民族语言,30余种文字。方言始终是制约语音技术全面成熟的一个核心问题,研究低资源的语音技术对于汉语和方言文化的数字化发展意义深远,存在诸多源头创新的可能性。在低资源语音技术领域,我们感兴趣的研究方向包括数据扩增、语音增强技术、说话人分离技术、基于自监督学习的语音表示等以及这些核心技术在语音识别、合成和分析系统方面的应用。
人类与周围环境的交互通道是多种多样的,包括语音、视觉、语言、身体感知等。互联网、移动互联网和物联网的高速发展使得研究人类与环境的多模态交互成为可能 ,多模态机器学习、跨模态机器学习是当前的热点研究问题。在多模态交互技术领域,HLT Lab感兴趣的研究方向包括Audio-Visual Speech Recognition, Gesture Detection, Gesture Generation, Face Generation, Lip-syncing, Dialog Management等,通过以上具体的研究课题的推进,我们希望去探索和回答多模态机器学习的一系列挑战问题,包括多模态数据的表征、对齐、融合和协同学习等。
现实生活中,情感在人与人的交流中发挥着极为重要的作用,相同的语言在不同的情绪表达下,语义会相差很大。情感计算为下一代的人机交互提供了重要的技术支撑。利用深度学习技术,通过对声音、表情、手势、动作、文本、EEG、皮肤电等信号的分析,对人类的情感、情绪变化进行自动分析和识别,赋能有“温度的人工智能”应用创新。
展望未来,HLT Lab的研究方向聚焦于低资源语音核心技术和多模态交互技术,并基于南开大学打造的开放的创新平台,拓展与企业的创新合作,将低资源语音技术和多模态交互技术应用于信息安全、金融、医疗和文化教育产业的创新,力争在基础理论、技术实现和产业应用三方面取得成效,使我国在低资源语音技术和多模态交互技术的研究处于国际领先水平。具体来说,为了落实人工智能技术与实体经济融合发展的战略,团队在深耕低资源语音技术的源头创新的前提下,在教育产业领域,研究沉浸式虚拟课堂的核心技术,打造数字教室,实现从“在教室学习(Learning in Classroom)”到“从教室学习(Learning from Classroom)”的转化升级,从而使得教育欠发达地区的学生能够接触到发达地区的优质的教学资源,在一定程度上解决教育资源的不平衡问题。在金融领域,针对小语种、重口音甚至方言用户以及老年人和儿童用户,开发简单易用的人机交互接口,填补由于技术缺陷带来的数字鸿沟,实现信息无障碍。在医疗领域,结合南开大学在自然语言处理、计算机视觉、大数据、生物医学信息分析与挖掘领域的技术优势,研发能够应用于真实世界的疾病筛查、诊断和病例质检解决方案,尤其是在自闭症和抑郁症等心理健康有关的疾病管理,为医疗行业的数字化转型服务。