多模态视听识别

基于Transformer和ResNet模型,预测您提供的视频相对应的语音识别结果。

(目前仅支持英文类型的视频)

技 术 路 线

基于Transformer和ResNet的模型结构

1654658700-王鹏多模态视听识别技术路线

Encoder阶段,将STFT应用于音频获得语谱图,通过3D卷积+残差网络处理视频序列的特征;

之后每个模态分别进入一个Transformer解码器进行分类

模 型 特 点

接受多种类型的输入参数(纯音频,纯视频,视听联合)

在噪音环境下仍能保证语音识别结果的准确率

1654658944-王鹏模型特点
感谢南开大学计算机学院2018级计算机科学与技术专业王鹏同学的工作对本网站建设的支持。