音频模式识别交流分享会

News, 交流合作

Audio Pattern Recognition

2022年4月18日晚，HLT实验室秦勇教授就音频模式识别课题与清华大学师生进行交流分享。

分享内容首先从音频模式识别的课题背景展开，首先介绍了音频模式识别的相关领域应用现状。其应用场景丰富，可以用在国家安全、军事、车联网、医疗等场景。

其次，是关于音频领域一些著名的、典型的数据集介绍，如ESC-50、Urban Sound and Urban Sound8K、Ravdess、MSoS、AudioSet by Google、DCASE、MagnaTagATune、Million Song Dataset、MTG-Jamendo Dataset、GTZAN等。

秦勇老师分别从数据集大小、数据集特征、数据集来源等多个方面详细介绍了数据集的具体信息，并对于音频模式识别下的一些子领域的数据集进行了分类和推荐。

之后，秦勇老师以音乐流派分类问题为例，介绍了课题已有研究的工作思路，结合具体的模型，分析不同思路的优势和创新，其中包括CNN、CRNN、Multi-channels、Transformer等模型结构；另外，结合具体课题项目，提出了实验中应该特别注意的问题，如模型的鲁棒性问题等。

最后与清华大学师生的交流部分，包括数据集选取、数据预处理、模型使用等多个方面，涉及到的研究方向也涵盖音频分析、语音情感识别等多个领域。