音频模式识别交流分享会

Audio Pattern Recognition

        2022年4月18日晚,HLT实验室秦勇教授就音频模式识别课题与清华大学师生进行交流分享。

        分享内容首先从音频模式识别的课题背景展开,首先介绍了音频模式识别的相关领域应用现状。其应用场景丰富,可以用在国家安全、军事、车联网、医疗等场景。

        其次,是关于音频领域一些著名的、典型的数据集介绍,如ESC-50、Urban Sound and Urban Sound8K、Ravdess、MSoS、AudioSet by Google、DCASE、MagnaTagATune、Million Song Dataset、MTG-Jamendo Dataset、GTZAN等。

        秦勇老师分别从数据集大小、数据集特征、数据集来源等多个方面详细介绍了数据集的具体信息,并对于音频模式识别下的一些子领域的数据集进行了分类和推荐。

        之后,秦勇老师以音乐流派分类问题为例,介绍了课题已有研究的工作思路,结合具体的模型,分析不同思路的优势和创新,其中包括CNN、CRNN、Multi-channels、Transformer等模型结构;另外,结合具体课题项目,提出了实验中应该特别注意的问题,如模型的鲁棒性问题等。

        最后与清华大学师生的交流部分,包括数据集选取、数据预处理、模型使用等多个方面,涉及到的研究方向也涵盖音频分析、语音情感识别等多个领域。