多模态视听识别

Demo介绍, 科研成果

基于Transformer和ResNet模型，预测您提供的视频相对应的语音识别结果。

（目前仅支持英文类型的视频）

技术路线

基于Transformer和ResNet的模型结构

Encoder阶段，将STFT应用于音频获得语谱图，通过3D卷积+残差网络处理视频序列的特征；

之后每个模态分别进入一个Transformer解码器进行分类

模型特点

接受多种类型的输入参数（纯音频，纯视频，视听联合）

在噪音环境下仍能保证语音识别结果的准确率

感谢南开大学计算机学院2018级计算机科学与技术专业王鹏同学的工作对本网站建设的支持。