剛開(kāi)業(yè)價(jià)值300萬(wàn)黃金被洗劫一空(300萬(wàn)黃金被盜案)
2024-04-25
更新時(shí)間:2024-04-28 09:17:40作者:佚名
時(shí)隔兩個(gè)月,清華團(tuán)隊(duì)打造了一個(gè)中國(guó)版的Sora視頻大模型。
4月27日,在中關(guān)村論壇未來(lái)人工智能先鋒論壇上,中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu正式發(fā)布。這一模型由清華大學(xué)和大模型創(chuàng)業(yè)公司生數(shù)科技聯(lián)合發(fā)布,可以一鍵生成長(zhǎng)度達(dá)16秒、分辨率為1080P的高清視頻內(nèi)容。
證券時(shí)報(bào)記者獨(dú)家獲悉,清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技首席科學(xué)家朱軍在Vidu發(fā)布后發(fā)聲表示:“Vidu,we do, we did, we do together!感謝小伙伴們?nèi)找岳^夜的堅(jiān)持,在實(shí)驗(yàn)室架構(gòu)上開(kāi)花結(jié)果。”據(jù)介紹,這也是自O(shè)penAI發(fā)布Sora以后,全球率先取得重大突破的視頻大模型。
Sora發(fā)布后,行業(yè)內(nèi)一直有團(tuán)隊(duì)宣稱要追趕和復(fù)現(xiàn)Sora,而Vidu團(tuán)隊(duì)用兩個(gè)月的時(shí)間率先跑出來(lái)。記者梳理發(fā)現(xiàn),生數(shù)科技在多模態(tài)大模型領(lǐng)域已經(jīng)有較深的積累,也是目前多模態(tài)大模型賽道估值最高的初創(chuàng)公司之一。目前公司已完成三輪融資,融資額達(dá)數(shù)億元人民幣,投資方包括啟明創(chuàng)投、智譜AI、BV百度風(fēng)投、錦秋基金等一眾機(jī)構(gòu)。
對(duì)標(biāo)Sora,生成視頻連貫高清
“畫(huà)室里的一艘船駛向鏡頭”,只需要輸入這樣一句簡(jiǎn)單的指令,即可以生成效果逼真、鏡頭連貫的一段視頻。在生數(shù)科技發(fā)布的Vidu模型生成視頻樣片中,視頻的整體質(zhì)感幾乎可與Sora相媲美。
據(jù)生數(shù)科技介紹,Vidu模型采用團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT,支持一鍵生成長(zhǎng)達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。“U-ViT架構(gòu)早在2022年9月就由團(tuán)隊(duì)提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion與Transformer融合的架構(gòu)。”生數(shù)科技表示。
記者注意到,今年3月生數(shù)科技完成新一輪融資后,公司就公開(kāi)表示,雖然Sora的出現(xiàn)表明美國(guó)在多模態(tài)大模型領(lǐng)域具有領(lǐng)先性,“但中國(guó)也并非完全從零開(kāi)始的階段”。據(jù)介紹,朱軍在2023年1月就提出了基于Transformer的多模態(tài)擴(kuò)散大模型UniDiffuser,采用了U-ViT,該架構(gòu)與Sora的架構(gòu)路線完全一致,區(qū)別在于UniDiffuser主要應(yīng)用于圖像生成任務(wù),但也可以以此為基礎(chǔ)進(jìn)行視頻任務(wù)的拓展。
正是基于在機(jī)器學(xué)習(xí)和多模態(tài)大模型的長(zhǎng)期積累,團(tuán)隊(duì)才能夠在短短的兩個(gè)月時(shí)間里突破了長(zhǎng)視頻表示與處理的多項(xiàng)關(guān)鍵技術(shù),成功研發(fā)推出Vidu視頻大模型。朱軍在Vidu模型發(fā)布現(xiàn)場(chǎng)表示,Vidu主要有以下方面的特點(diǎn)與優(yōu)勢(shì):
一是模擬真實(shí)物理世界,可以生成復(fù)雜、細(xì)節(jié)豐富的場(chǎng)景,光影效果與人物表情都能夠符合真實(shí)的物理規(guī)律。
二是富有想象力,可以虛構(gòu)場(chǎng)景以及想象超現(xiàn)實(shí)主義的畫(huà)面。
三是具有多鏡頭語(yǔ)言,不再局限于固定鏡頭,能夠在遵循主體一致性的情況下實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫(xiě)等不同鏡頭的動(dòng)態(tài)切換,還可以實(shí)現(xiàn)長(zhǎng)鏡頭、追焦等效果。
四是有出色的視頻時(shí)長(zhǎng),能支持16秒長(zhǎng)度的視頻生成,保持鏡頭和主體的連貫一致。
五是能理解中國(guó)元素,可以更好地理解生成熊貓、龍等富有中國(guó)文化特色的形象。
背后團(tuán)隊(duì)來(lái)自清華,已融資數(shù)億元
Vidu的背后,是一家來(lái)自清華的明星創(chuàng)業(yè)公司生數(shù)科技。
公開(kāi)資料顯示,生數(shù)科技成立于2023年3月,核心成員來(lái)自清華大學(xué)人工智能研究院,致力于自主研發(fā)世界領(lǐng)先的可控多模態(tài)通用大模型。公司的CEO本碩就讀于清華大學(xué)計(jì)算機(jī)系的唐家渝,首席科學(xué)家由清華人工智能研究院副院長(zhǎng)朱軍擔(dān)任,CTO鮑凡則是清華大學(xué)計(jì)算機(jī)系博士生、朱軍教授的課題組成員,長(zhǎng)期關(guān)注擴(kuò)散模型領(lǐng)域研究。
記者注意到,今年3月,唐家渝曾在溝通會(huì)上向媒體表示,今年內(nèi)公司的大模型一定能達(dá)到Sora目前版本的效果,“但很難說(shuō)是三個(gè)月還是半年”。然而,Vidu卻提前交出了一份令人驚艷的考卷,這主要得益于團(tuán)隊(duì)是國(guó)內(nèi)最早布局多模態(tài)大模型的團(tuán)隊(duì)之一,多年以來(lái)在這一領(lǐng)域形成了深厚的積累。
據(jù)唐家渝介紹,生數(shù)科技目前采取模型層和應(yīng)用層兩條路走路的模式。一方面,構(gòu)建覆蓋文本、圖像、視頻、3D 模型等多模態(tài)能力的底層通用大模型,面向B端提供模型服務(wù)能力;另一方面,面向圖像生成、視頻生成等場(chǎng)景打造垂類應(yīng)用,按照訂閱等形式收費(fèi),應(yīng)用方向主要是游戲制作、影視后期等內(nèi)容創(chuàng)作場(chǎng)景。
記者梳理發(fā)現(xiàn),生數(shù)科技自成立以來(lái)就備受資本關(guān)注。天眼查數(shù)據(jù)顯示,生數(shù)科技目前共完成3輪融資。2023年6月,完成近億元人民幣天使輪融資,投資方包括螞蟻集團(tuán)、BV百度風(fēng)投、卓源亞洲、卓源資本;2023年8月,完成數(shù)千萬(wàn)人民幣天使+輪融資,投資方為錦秋基金;2024年3月,完成數(shù)億元人民幣A輪融資,投資方除了啟明創(chuàng)投、達(dá)泰資本、智譜AI等新機(jī)構(gòu)以外,還有BV百度風(fēng)投、卓源亞洲兩個(gè)老股東。
在三輪融資總計(jì)數(shù)億元人民幣的資本加持下,生數(shù)科技已成為目前國(guó)內(nèi)多模態(tài)大模型中估值最高的初創(chuàng)公司之一。生數(shù)科技表示,Vidu的問(wèn)世不僅是U-ViT融合架構(gòu)在大規(guī)模視覺(jué)任務(wù)中的又一次成功驗(yàn)證,也代表了生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的持續(xù)創(chuàng)新能力和領(lǐng)先性。