多模态视听识别Demo介绍, 科研成果 基于Transformer和ResNet模型,预测您提供的视频相对应的语音识别结果。(目前仅支持英文类型的视频) 技 术 路 线 基于Transformer和ResNet的模型结构 Encoder阶段,将STFT应用于音频获得语谱图,通过3D卷积+残差网络处理视频序列的特征;之后每个模态分别进入一个Transformer解码器进行分类 模 型 特 点 接受多种类型的输入参数(纯音频,纯视频,视听联合)在噪音环境下仍能保证语音识别结果的准确率 感谢南开大学计算机学院2018级计算机科学与技术专业王鹏同学的工作对本网站建设的支持。