最近,脸书开放了世界上最大的多语言语音数据集,VoxPopuli:
该数据集涵盖23种语言,持续时间超过40万小时。
其中,每种语言都有9000到18000小时的未标记语音数据。
此外,它还包括16种语言的1800小时转录语音数据和15种目标语言的17300小时翻译语音数据。
国外网友迅速称赞这一行为:
显然,如果数据集已经存在,就应该以道德的方式使用和改进它。
该数据集庞大的未标记数据量和广泛的语言覆盖范围对改进自我监控模型有很大帮助。
脸书还希望帮助提高语音数据集的质量和鲁棒性,并使语音转换神经网络的训练更加可靠。
最后,新的NLP系统开发加速,AI翻译效果越来越好。
十年欧洲会议文集
在欧洲议会的各种活动中,如全体会议,委员会会议和其他活动,发言者将轮流用不同的欧盟语言发言。
脸书刚刚从欧洲运动会官方网站上抢到了每场演讲的文字记录,演讲者信息和开始/结束时间戳。
然后,对所有原始语音数据进行处理,并将其大致分为以下三类:
总共400,000小时的23种语言的无标签语音数据
每种语言都有超过8000到20000个原始语音数据。
因此,脸书基于能量的语音活动检测算法将完整的音频分成15—30秒的小段。
最后,获得没有太多数据不平衡和没有调整数据采样策略的数据集。
所以非常适合训练多语言模型。
除了未标记的数据,表中还有转录的语音数据,这是第二种类型:
总共1800个小时,用16种语言转录语音数据
虽然EC的官方时间戳可以用来定义会议中的发言人,但往往会被截断或与前后发言的片段混在一起,因此并不完全准确。
因此,脸书对全会音频采用了声纹分割聚类。
此时,语音片段的平均持续时间为197秒,然后使用语音识别系统将其细分为大约20秒的短片段。
通过观察上表,我们可以看到最终的数据包含了很多属性,比如每种语言的时长,说话者的数量,女性说话者的百分比,分数等等。
15种目标语言的17,300小时口译语音数据,
每个原话都有相应的同声传译,并且相互关联。
但是要使这个数据集可用,它必须经过大量的预处理和过滤。
因此,脸书使用语音识别系统将源语音与目标语音在句子层面对齐。
它在域外环境中的半监督学习下是通用的
那么这个数据集是如何工作的呢。
首先,包括域外语言在内的无监督预训练用于样本较少的语音识别:
从表中可以看出,在五种VoxPopuli语言中,VP—Mono5K优于XLSR—Mono和XLSR—10。
而VP—100K在10种语言中有8种语言的性能优于XLSR—10。
再者,虽然XLSR—53覆盖了Zh语言,但在Zh上的性能远不如VP—100K。
这说明VP—100K在语音表征方面具有很高的普适性。
然后是使用VoxPopuli数据集的自训练或弱监督语言翻译和语音识别:
从表中可以看出,无论是对于域内语言还是域外语言,VoxPopuli的自训练在大多数情况下都能提高性能。
在翻译中,不需要添加昂贵的标签数据。
通过自我训练,可以缩小端到端模型和级联模型之间的差距。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。