2025-02-21 Github: LatentSync 潛伏同步

Source: https://github.com/bytedance/LatentSync

https://niugee.com/

Github 說明

我們提出了LatentSync，這是一種基於音頻條件潛在擴散模型的端到端唇形同步框架，沒有任何中間運動表示，與以前基於像素空間擴散或兩階段生成的基於擴散的唇形同步方法不同。我們的框架可以利用穩定擴散的強大功能來直接模擬複雜的視聽相關性。此外，我們發現基於擴散的口型同步方法由於不同幀之間的擴散過程不一致而表現出較差的時間一致性。我們提出時間表示對齊 (TREPA)來增強時間一致性，同時保持口型同步準確性。 TREPA 使用大規模自監督視訊模型提取的時間表示來將生成的幀與真實幀對齊。
LatentSync 使用Whisper將梅爾頻譜圖轉換為音訊嵌入，然後透過交叉注意力層將其整合到 U-Net 中。參考幀和掩蔽幀按通道與噪聲潛在幀連接作為 U-Net 的輸入。在訓練過程中，我們使用一步法從預測噪音中取得估計的乾淨潛在值，然後對其進行解碼以獲得估計的乾淨影格。 TREPA、LPIPS和SyncNet損失被加入到像素空間。

TAGS

53 person(s) visited this page until now.
Back