新京報(bào)貝殼財(cái)經(jīng)訊（記者羅亦丹）1月9日，阿里云通義萬相攜2.1版本升級殺入了視頻生成大模型的競技場，并在權(quán)威評測集VBench上登頂。此次升級，通義萬相在大幅度復(fù)雜運(yùn)動(dòng)、物理規(guī)律遵循、藝術(shù)表現(xiàn)等方面全面提升。

版本升級后，新版的通義萬象在視頻生成領(lǐng)域的權(quán)威評測集VBench登上榜首位置，超越混元、海螺AI、Gen3、Pika等國內(nèi)外視頻生成模型。具體來看，VBench一共有16個(gè)評分維度，而通義萬相在運(yùn)動(dòng)幅度、多對象生成、空間關(guān)系等關(guān)鍵能力上拿下最高分，最終以總分84.7%的成績斬獲第一。

目前，精準(zhǔn)理解和模擬物理世界是當(dāng)下視頻生成模型的核心難題，現(xiàn)有模型生成的視頻在大幅運(yùn)動(dòng)、物理復(fù)雜場景表現(xiàn)較差，容易生成肢體扭曲、違背物理定律的視頻。針對這一難題，通義萬相團(tuán)隊(duì)采用自研VAE和DiT架構(gòu)，有效增強(qiáng)了時(shí)空上下文關(guān)系建模能力。

在DiT的設(shè)計(jì)中，全新通義萬相使用時(shí)空全注意機(jī)制，這一機(jī)制讓模型能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界的復(fù)雜動(dòng)態(tài)；團(tuán)隊(duì)還引入了參數(shù)共享機(jī)制，不僅提升了模型的性能，還有效降低了訓(xùn)練成本；此外，針對文本的嵌入進(jìn)行優(yōu)化，實(shí)現(xiàn)更優(yōu)的文本可控性的同時(shí)也減少了計(jì)算需求。

在視頻VAE方面，通義萬相設(shè)計(jì)了一種創(chuàng)新的視頻編解碼方案。通過將視頻拆分成若干塊（Chunk）并緩存中間特征的方式，代替直接對長視頻的E2E編解碼過程，實(shí)現(xiàn)顯存的使用與原始視頻長度無關(guān)，從而能夠支持無限長1080P視頻的高效編解碼，這一關(guān)鍵技術(shù)為任意時(shí)長視頻的訓(xùn)練提供了新的路徑。

在全新架構(gòu)下，通義萬相在大幅度的肢體運(yùn)動(dòng)和肢體旋轉(zhuǎn)場景的視頻生成上表現(xiàn)更穩(wěn)定，即便是花樣滑冰、游泳、跳水等運(yùn)動(dòng)視頻也能保持肢體協(xié)調(diào)并符合正常運(yùn)動(dòng)軌跡。通義萬相在文字視頻生成上實(shí)現(xiàn)了突破，成為首個(gè)支持中文文字生成能力、且同時(shí)支持中英文文字特效生成的視頻生成模型，可滿足廣告設(shè)計(jì)、短視頻等領(lǐng)域的創(chuàng)作需求。

上圖為用戶輸入“平拍一位女性花樣滑冰運(yùn)動(dòng)員在冰場上進(jìn)行表演的全景。她穿著紫色的滑冰服，腳踩白色的滑冰鞋，正在進(jìn)行一個(gè)旋轉(zhuǎn)動(dòng)作。她的手臂張開，身體向后傾斜，展現(xiàn)了她的技巧和優(yōu)雅”后，通義萬相生成的內(nèi)容。

目前，該模型已全面開放，用戶可在通義萬相官網(wǎng)直接免費(fèi)使用，個(gè)人開發(fā)者和企業(yè)用戶可在阿里云百煉調(diào)用通義萬相API。

編輯徐雨婷

校對趙琳

11 +1

微博

微信

我要評論

直播

預(yù)告

理想汽車2025上海車展發(fā)布會(huì)
2025-04-23 09:40
預(yù) 告騰勢首款概念跑車全球首秀
2025-04-23 10:20
預(yù) 告 2025校歌會(huì)暨第11屆北京沙河高教園區(qū)文化交流月開幕
2025-04-27 19:20

阿里云發(fā)力視頻大模型：通義萬相升級為2.1版本全面開放使用

我要評論

直播

熱點(diǎn)

最新

熱議