eps保温板是挤塑板吗

四川建材 2021-06-08 阅读:254

近日,Facebook AI 研究院(FAIR)发布了无监督的wav2vec架构——wav2vec-U。

FAIR表示,这是一种构建根本不需要语音-文字转录数据的语音识别系统,性能也很不错,可以与几年前最好的监督模型的性能相媲美,而后者是在将近1000个小时的转录语音上进行训练的。

FAIR表示:由于带标签数据的匮乏,目前语音识别技术仅在少量语言中应用,并且这些数据也还没有通用到可以适应任意的语言、方言和说话方式。因此,他们开发了这一系统。

FAIR使用斯瓦西里语和鞑靼语等语言对wav2vec-U进行了测试,这些语言目前尚无法使用高质量的语音识别模型,因为它们缺乏大量的带标签的训练数据。结果表明,wav2vec-U有很好的广泛适用性。

图灵奖得主、FAIR首席科学家Yann LeCun在推特上表示:

事实证明,我们可以用不带标签的语音数据训练语音识别系统。只需要一个文本转音素系统来生成音素序列。这些序列的统计信息足以“监督”没有任何标记语音的语音识别器。

1

wav2vec-U

Wav2vec-U只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。

wav2vec-U训练过程包括三个的主要步骤:

准备语音表示和文本数据生成对抗训练(GAN)迭代自训练+ Kaldi LM解码与以前的ASR系统相比,FAIR采用了一种新颖的方法:该方法首先从未标记的音频中学习语音的结构。

通过FAIR开发的自监督模型wav2vec 2.0和简单的k均值聚类方法,研究人员将语音数据分割成与发音对应的语音单元。(例如,猫这个词包含三个发音:“ / K /”,“ / AE /”和“ / T /”。)

为了学习识别录音中的单词,研究人员训练了一个生成对抗网络(GAN)。生成器获取嵌入在自监督表示中的每个发音片段,并预测相对应的音素,鉴别器会评估预测的音素序列是否看起来逼真。一开始,转录效果很差,随着训练的进行,生成器的生成结果逐渐变得准确。

在GAN训练提供了第一个非监督模型之后,研究人员使用半监督学习的多次迭代逐步完善转录的质量。

研究人员执行了两次迭代:首先,使用无监督的GAN模型对训练数据进行伪标记,然后在伪标签上训练HMM。其次,研究人员用HMM重新标记训练数据,然后使用具有CTC损失的HMM伪标签微调原始的wav2vec 2.0模型。

请注意,HMM模型使用音素作为输出,而wav2vec 2.0使用字母作为输出。两者均使用WFST解码器解码为字。

为了了解wav2vec-U的工作情况,研究人员首先在TIMIT基准测试中对其进行了评估,与先前最优的无监督方法相比,它使错误率降低了57%。

wav2vec-U与TIMIT基准测试中先前最优的无监督方法进行了比较。

在更大的Librispeech基准上,监督模型通常使用960个小时的语音-文字转录数据进行训练。研究人员发现wav2vec-U与几年前的最优监督模型性能相当。FAIR表示,这表明没有监督的语音识别系统也可以达到非常好的质量。

wav2vec-U与Librispeech基准测试上的监督模型相比。来源:paperswithcode.com

TIMIT和Librispeech可以用来测试AI模型的英语语音识别性能,其拥有大量可广泛使用的标记数据集。然而,无监督语音识别对于几乎没有标签数据的语言的意义更大。eps保温板是挤塑板吗因此,研究人员在其他语言上尝试了wav2vec-U,在斯瓦希里语、鞑靼语和吉尔吉斯语等语言上都得到了较低的识别错误率。

FAIR还对wav2vec-U进行了其他语言的训练。

2

为什么无监督模型那么重要?

FAIR一直专注于无监督、自监督技术,他们认为,诸如语音识别之类的AI技术不应仅使一些通用语言使用者受益。Yann LeCun不止一次公开强调要拜托监督学习范式的束缚:

仅靠监督学习,人工智能领域难以走远。如果人工智能系统能够在训练数据集之外,对现实世界能够有更深入、更细致的理解,显然它们将更有用,最终也将使人工智能更接近人类层面的智能。自我监督学习使人工智能系统能够从数量级更大的数据中学习,这对于识别和理解世界更微妙、更不常见的表示模式很重要。

实验室近年在该领域取得了长足的进步,首先推出了wav2vec,然后推出了wav2vec 2.0,现在推出了wav2vec-U。

在这个视频中,FAIR重点介绍了实验室在无监督、自监督技术上的关键成就,包括wav2letter、无监督机器翻译、wav2vec、Librilight、wav2vec 2.0、XLSR、wav2vec 2.0 +自我训练。

01:11

“我们希望这将为世界上更多的语言和方言带来高效的语音识别技术。我们会发布代码,让社区的人也能以仅使用未标记的语音录音和未标记的文本来构建语音识别系统。”

代码地址:

http://github.com/pytorch/fairseq/tree/master/examples/wav2vec/unsupervised?fbclid=IwAR2eQexLlsCo1b-XotxW58Z6TdBRAQMKsWgkiOul4tFUA85FtW8P9OfJSMc

参考链接:

赠书福利

AI科技评论本次联合【图灵教育】为大家带来10本《图神经网络导论》正版新书。


四川改性聚苯板 保温板


这是成都挤塑板四川保温砂浆,四川改性挤塑板(2021-06-08 17:43:24)

评论(0)