音乐流派分类

GTZAN音乐数据集分类

卷积神经网络

目前,针对音频分类的研究工作主要从深度学习领域展开。

音频数据可以通过波形图看作是一维时序数据、或者通过语谱图看作是二维图像数据。本演示延续图像处理的思路,通过分析音频的梅尔谱图数据对其进行分类。

预训练模型&迁移学习

  • 预训练模型 & 迁移学习

    利用大数据集预先训练模型,在下游分类任务中进行微调,提高模型训练效果,实现从图像领域到音频领域的迁移学习

  • 模型架构

    引入预训练模型ResNet50,在音乐流派分类任务中进行微调

  • 模型输入

    音频文件的梅尔声谱数据(三通道)

技术应用场景拓展

声纹识别

  • 治安防控
  • 反电信诈骗
  • 侦查破案

音频检测

  • 声音分析、振动分析
  • 产品质量进行评估和预防性维护

语音情感分析

  • 疾病诊断和监测
  • 心理健康状况监测
  • 疲劳状态监测

场景识别

  • 智能语音助手
  • 智能汽车
  • 各种人机交互领域
感谢南开大学计算机学院2018级计算机科学与技术专业王雪琛同学的工作对本网站建设的支持。