音乐流派分类Demo介绍, 科研成果 GTZAN音乐数据集分类 卷积神经网络 目前,针对音频分类的研究工作主要从深度学习领域展开。音频数据可以通过波形图看作是一维时序数据、或者通过语谱图看作是二维图像数据。本演示延续图像处理的思路,通过分析音频的梅尔谱图数据对其进行分类。 预训练模型&迁移学习 预训练模型 & 迁移学习:利用大数据集预先训练模型,在下游分类任务中进行微调,提高模型训练效果,实现从图像领域到音频领域的迁移学习模型架构:引入预训练模型ResNet50,在音乐流派分类任务中进行微调模型输入:音频文件的梅尔声谱数据(三通道) 技术应用场景拓展 声纹识别 治安防控反电信诈骗侦查破案 音频检测 声音分析、振动分析产品质量进行评估和预防性维护 语音情感分析 疾病诊断和监测心理健康状况监测疲劳状态监测 场景识别 智能语音助手智能汽车各种人机交互领域 感谢南开大学计算机学院2018级计算机科学与技术专业王雪琛同学的工作对本网站建设的支持。