Google AI研究人員發(fā)布了兩個(gè)用于衡量深度學(xué)習網(wǎng)絡(luò )生成的音頻和視頻質(zhì)量的新指標,即Fréchet音頻距離(FAD)和Fréchet視頻距離(FVD)。度量已顯示與質(zhì)量人工評估高度相關(guān)。

在最近的博客文章中,軟件工程師Kevin Kilgour和Thomas Unterthiner描述了他們的團隊所做的工作,這些工作是建立在先前對測量神經(jīng)網(wǎng)絡(luò )生成的圖像質(zhì)量的研究的基礎上的。這些團隊展示了他們的新指標如何分別檢測添加到聲音或視頻中的噪聲,以及如何通過(guò)人工評估聲音或視頻質(zhì)量對指標進(jìn)行跟蹤。FAD是通過(guò)對失真音頻樣本對的序列進(jìn)行排序來(lái)評估的,其選擇與人類(lèi)判斷的相關(guān)性為0.39。通過(guò)對由深度學(xué)習模型生成的視頻對進(jìn)行排名,對FVD進(jìn)行了類(lèi)似的評估。根據所使用的生成標準,它與人類(lèi)排名一致同意在60%至80%之間。
深度學(xué)習模型的成功在一定程度上受到諸如ImageNet之類(lèi)的大型高質(zhì)量數據集可用性的推動(dòng)。這些數據集還提供了“基礎事實(shí)”,可以據此評估模型。深度學(xué)習在生成新圖像方面的最新流行應用提出了一個(gè)新問(wèn)題:如何衡量輸出的質(zhì)量?由于沒(méi)有針對這些網(wǎng)絡(luò )生成的圖像或其他數據的“地面真實(shí)性”答案,因此無(wú)法應用諸如信噪比或均方誤差之類(lèi)的通用指標。

由于目標是創(chuàng )建看起來(lái)或聽(tīng)起來(lái)對人類(lèi)真實(shí)的輸出,因此可以由人類(lèi)法官對數據進(jìn)行評分,但是這既不是可擴展的,也不是客觀(guān)的。GAN的發(fā)明者提出的初始指標是初始得分 (IS)。通過(guò)將預訓練的Inception圖像分類(lèi)器應用于圖像并計算結果統計信息來(lái)計算此指標。該度量標準“與用于訓練生成模型的目標密切相關(guān)”,并且已證明與人類(lèi)對質(zhì)量的判斷高度相關(guān)。
但是,初始得分指標確實(shí)存在一些不足;特別是,它對所使用的基礎Inception模型的更改很敏感。Unterthiner和其他人在奧地利約翰內斯·開(kāi)普勒大學(xué)的LIT AI實(shí)驗室開(kāi)發(fā)了Fréchet起始距離(FID)。FID使用Inception模型的隱藏層來(lái)計算輸入圖像的嵌入,而不是使用Inception模型的分類(lèi)輸出。為一組生成的圖像和一組真實(shí)世界(或基線(xiàn))圖像計算嵌入。將所得數據集視為由多元高斯分布生成的數據,并使用弗雷謝特距離比較這兩個(gè)分布。與IS相比,FID相對于IS的一個(gè)優(yōu)勢是,隨著(zhù)將噪聲添加到圖像上,FID會(huì )增加,而IS可能保持平坦甚至降低。

Google的新指標擴展了這種思想,即為生成的數據計算嵌入并將統計數據與基準數據進(jìn)行比較。對于FAD,團隊使用 VGGish來(lái)計算嵌入,而對于FVD,則使用 Inflated 3D Convnet。為了驗證度量標準的有效性,研究人員計算了通過(guò)向基線(xiàn)添加噪聲而創(chuàng )建的數據集的度量標準值。期望隨著(zhù)噪聲的增加,分數會(huì )增加,這的確發(fā)生了。該團隊還將他們的度量結果與人類(lèi)評估進(jìn)行了比較,發(fā)現了他們的度量與人類(lèi)判斷之間的相關(guān)性,并且他們的新度量與人類(lèi)法官的共識比其他常用度量更為一致。
