久久伊人网站-久久伊人天堂视频网-久久伊人青青-久久伊人男人的天堂网站-在线免费公开视频-在线免费福利

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈
佚名
2024-04-05 19:07:18
0

近期,一篇4萬(wàn)字的演講風(fēng)靡于國(guó)內(nèi)人工智能(AI)學(xué)術(shù)圈。

原華為"天才少年"、Logenic AI公司聯(lián)合創(chuàng)始人李博杰博士,日前發(fā)表了一篇關(guān)于AI Agent思考的文章,題為"AI Agent 應(yīng)該更有趣還是更有用"。

李博杰在這篇文章中表示,AI的發(fā)展目前有兩個(gè)方向,一個(gè)是有趣的AI,也就是更像人的AI;另外一個(gè)方向就是更有用的AI,也就是更像工具的AI。但目前的AI技術(shù),要么是只有趣但沒(méi)用,要么是只有用但是不像人,"不好玩"。

李博杰指出,通用人工智能(AGI)的目標(biāo)是,兼具慢思考和類人屬性的 AI Agent,然而當(dāng)前 AI Agent 和人類夢(mèng)想之間存在巨大的差距。

李博杰坦言,Video Diffusion 是一個(gè)更為終極的技術(shù)路線。盡管大模型的成本一定會(huì)快速降低,但他不建議貿(mào)然自己去做基礎(chǔ)模型。

"如果沒(méi)有拳打OpenAI、腳踢Anthropic的實(shí)力,在效果上比不過(guò)最好的閉源模型,成本上也比不上開源模型。"李博杰表示。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

據(jù)悉,李博杰今年31歲 (1992年生),曾任華為2012實(shí)驗(yàn)室中央軟件研究所計(jì)算機(jī)網(wǎng)絡(luò)與協(xié)議實(shí)驗(yàn)室、分布式與并行軟件實(shí)驗(yàn)室助理科學(xué)家、副首席專家,并且以第一批"天才少年"的身份于2019年加入華為,職級(jí)P20 (技術(shù)專家A級(jí)別)。

早在2010年,他進(jìn)入中國(guó)科學(xué)技術(shù)大學(xué)少年班學(xué)院學(xué)習(xí)。在校期間,擔(dān)任中科大鏡像站USTC Mirrors的維護(hù)者。2014年,李博杰以聯(lián)合培養(yǎng)博士生的身份,加入中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院(MSRA)的聯(lián)合項(xiàng)目。

幾乎同時(shí),2019年,李博杰獲得中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院的合作培養(yǎng)博士生項(xiàng)目中取得計(jì)算機(jī)科學(xué)學(xué)位,導(dǎo)師為張霖濤教授和陳恩紅教授。

2023年7月,李博杰離開華為后成立了Logenic AI,致力于成為人類的數(shù)字化延伸。憑借尖端的AIGC基礎(chǔ)設(shè)施,Logenic AI 能夠協(xié)作制作和服務(wù)多模式角色Agent,"元宇宙"、以及數(shù)字雙胞胎等角色。

李博杰表示,"我們都相信 AGI 肯定會(huì)到來(lái),唯一值得爭(zhēng)論的是到達(dá) AGI 的增長(zhǎng)曲線是怎樣的,是這一波自回歸模型隨著 scaling law,直接高速增長(zhǎng)到 AGI;還是這一波自回歸模型也會(huì)遇到瓶頸,AGI 還需要等待下一波技術(shù)革命。10 年前 ResNet 掀起 CV 革命的時(shí)候,很多人都對(duì) AI 的發(fā)展預(yù)期過(guò)于樂(lè)觀。這一波 Transformer 會(huì)是通向 AGI 的坦途嗎?"

李博杰強(qiáng)調(diào),AI Agent 的創(chuàng)作者可以盈利。因此,好看的皮囊、有趣的靈魂、有用的 AI、低成本和去中心化,AI Agent 將推動(dòng)整個(gè) AI 領(lǐng)域持續(xù)創(chuàng)新和健康發(fā)展。

"我們相信,在人類世界的數(shù)字延伸中,有趣的靈魂終會(huì)相遇。"李博杰稱。

以下是李博杰演講內(nèi)容全文,共約4萬(wàn)字,Enjoy:

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

非常榮幸來(lái)到科大校友會(huì) AI 沙龍分享一些我對(duì) AI Agent 的思考。

我是 1000(2010 級(jí)理科實(shí)驗(yàn)班)的李博杰,2014-2019 年在中科大和微軟亞洲研究院讀聯(lián)合培養(yǎng)博士,2019-2023 年是華為首屆天才少年,如今我跟一批科大校友一起在做 AI Agent 領(lǐng)域的創(chuàng)業(yè)。

今天(去年12月)是湯曉鷗教授的頭七,因此我特別把今天的PPT調(diào)成了黑色背景,這也是我第一次用黑色背景的PPT做報(bào)告。我也希望,隨著AI技術(shù)的發(fā)展,未來(lái)每個(gè)人都可以有自己的數(shù)字分身,實(shí)現(xiàn)靈魂在數(shù)字世界中的永生,在這個(gè)世界里生命不再有限,也就不再有分離的悲傷。

AI:有趣和有用

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

AI的發(fā)展目前一直有兩個(gè)方向,一個(gè)是有趣的AI,也就是更像人的AI;另外一個(gè)方向就是更有用的AI,也就是更像工具的AI。

AI 應(yīng)該更像人還是更像工具呢?其實(shí)是有很多爭(zhēng)議的。比如說(shuō) OpenAI 的 CEO Sam Altman 就說(shuō),AI 應(yīng)該是一個(gè)工具,它不應(yīng)該是一個(gè)生命。而很多科幻電影里的 AI 其實(shí)更像人,比如說(shuō) Her 里面的 Samantha,還有《流浪地球 2》里面的圖丫丫,黑鏡里面的 Ash,所以我們希望能把這些科幻中的場(chǎng)景帶到現(xiàn)實(shí)。只有少數(shù)科幻電影里面的 AI 是工具向的,比如《鋼鐵俠》里面的賈維斯。

除了有趣和有用這個(gè)水平方向的之外,還有另外一個(gè)上下的維度,就是快思考和慢思考。這是一個(gè)神經(jīng)科學(xué)的概念,出自一本書《思考,快與慢》,它里面就說(shuō)人的思考可以分為快思考和慢思考。

所謂的快思考就是不需要過(guò)腦子的基礎(chǔ)視覺、聽覺等感知能力和說(shuō)話等表達(dá)能力,像 ChatGPT、stable diffusion 這種一問(wèn)一答、解決特定問(wèn)題的 AI 可以認(rèn)為是一種工具向的快思考,你不問(wèn)它問(wèn)題的時(shí)候,它不會(huì)主動(dòng)去找你。而 Character AI、Inflection Pi 和 Talkie(星野)這些 AI Agent 產(chǎn)品都是模擬一個(gè)人或者動(dòng)漫游戲角色的對(duì)話,但這些對(duì)話不涉及復(fù)雜任務(wù)的解決,也沒(méi)有長(zhǎng)期記憶,因此只能用來(lái)閑聊,沒(méi)法像 Her 里面的 Samantha 那樣幫忙解決生活和工作中的問(wèn)題。

而慢思考就是有狀態(tài)的復(fù)雜思考,也就是說(shuō)如何去規(guī)劃和解決一個(gè)復(fù)雜的問(wèn)題,先做什么、后做什么。比如 MetaGPT 寫代碼是模擬一個(gè)軟件開發(fā)團(tuán)隊(duì)的分工合作,AutoGPT 是把一個(gè)復(fù)雜任務(wù)拆分成很多個(gè)階段來(lái)一步步完成,雖然這些系統(tǒng)在實(shí)用中還有很多問(wèn)題,但已經(jīng)是一個(gè)具備慢思考能力的雛形了。

遺憾的是,現(xiàn)有產(chǎn)品中幾乎沒(méi)有在第一象限,兼具慢思考和類人屬性的 AI Agent。斯坦福 AI 小鎮(zhèn)是個(gè)不錯(cuò)的學(xué)術(shù)界嘗試,但斯坦福 AI 小鎮(zhèn)里面沒(méi)有真人的交互,而且 AI Agent 一天的作息時(shí)間表都是事先排好的,因此并不是很有趣。

有趣的是,科幻電影里面的AI其實(shí)大部分是在這個(gè)第一象限。因此這就是目前 AI Agent 和人類夢(mèng)想之間的差距。

因此我們?cè)谧龅氖虑楦?Sam Altman 說(shuō)的正好相反,我們希望讓 AI 更像人,同時(shí)又具備慢思考的能力,最終演進(jìn)成一個(gè)數(shù)字生命。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

請(qǐng)輸入圖說(shuō)

今天大家都在講AGI的故事,AGI就是通用人工智能。什么是AGI呢?我覺得它又需要有趣,又需要有用。

有趣的方面,就是它需要能夠有自主思考的能力、有自己的個(gè)性和感情。而有用的方面,就是AI能夠解決工作、生活中的問(wèn)題。現(xiàn)在的AI要么是只有趣但沒(méi)用,要么是只有用但是不像人,不好玩。

比如說(shuō)像 Character AI 之類的角色扮演產(chǎn)品,它不能幫你完成工作或者生活中的問(wèn)題,但是它可以模擬一個(gè) Elon Musk、Donald Trump 或者原神里面的派蒙。我看過(guò)一個(gè)分析報(bào)告,說(shuō) Character AI 有上千萬(wàn)的用戶,但每個(gè)月的營(yíng)收只有幾十萬(wàn)美金,相當(dāng)于只有幾萬(wàn)付費(fèi)用戶。大多數(shù)用戶跟每個(gè)虛擬角色都是聊 10 分鐘、20 分鐘就不知道該說(shuō)什么了。那為什么它的用戶留存不高、付費(fèi)率也低呢?因?yàn)樗葲](méi)有給人提供情緒價(jià)值,又沒(méi)有給人提供實(shí)用價(jià)值。

而另一方面就是有用的AI,比如各種Copilot,他們又都是冷冰冰的,問(wèn)一句答一句,完全是一個(gè)工具。這些工具甚至記不住你之前干過(guò)什么,記不住你的喜好和習(xí)慣。那么用戶自然只會(huì)在需要這個(gè)工具的時(shí)候想起來(lái)用它,不需要的時(shí)候就會(huì)丟到一邊。

我認(rèn)為未來(lái)真正有價(jià)值的AI就像電影《Her》里面的Samantha,她首先是一個(gè)操作系統(tǒng)的定位,能夠幫主人公去解決很多生活中、工作中的問(wèn)題,幫他整理郵件等等,而且比傳統(tǒng)的操作系統(tǒng)做得又快又好。同時(shí)它又有記憶、有感情、有意識(shí),它不像一個(gè)電腦,而是像一個(gè)人。因此在感情空窗期的主人公 Theodore 就逐漸愛上了他的操作系統(tǒng) Samantha。當(dāng)然并不是所有人都把 Samantha 作為虛擬伴侶,劇中也說(shuō)了,只有 10% 的用戶跟他們的操作系統(tǒng)發(fā)展了浪漫關(guān)系。這樣的 AI Agent 我認(rèn)為才是真正有價(jià)值的。

另外值得說(shuō)道的一點(diǎn)是,全劇中這個(gè)Samantha只有語(yǔ)音交互,沒(méi)有視覺形象,更不是機(jī)器人。目前AI的能力也恰好是語(yǔ)音和文字很成熟,但視頻生成就不夠成熟,人形機(jī)器人也不夠成熟。《黑鏡》里面的機(jī)器人Ash就是個(gè)反例。這部劇里面先是用女主過(guò)世男友Ash的社交網(wǎng)絡(luò)資料制作了一個(gè)語(yǔ)音伴侶,直接把女主給弄哭了,其實(shí)做出那個(gè)語(yǔ)音伴侶現(xiàn)在的技術(shù)已經(jīng)綽綽有余了。后來(lái)女主加錢升級(jí),上傳了一堆視頻資料,買了一個(gè)長(zhǎng)得像Ash的人形機(jī)器人,其實(shí)現(xiàn)在的技術(shù)也做不到,但就算如此,Ash的女友還是覺得不像,因此把他鎖在閣樓里面了。這里面就有個(gè)恐怖谷效應(yīng),如果做得不夠逼真,就保持一定的距離。

順便說(shuō)一句,《黑鏡》里面女主先是文字聊天,然后說(shuō)了一句 Can you talk to me?然后就接通電話了。試用我們 AI Agent 的一個(gè)朋友還真的也這么問(wèn)我們的 AI Agent,結(jié)果我們的 AI Agent 回答,我是一個(gè) AI,只能文字交流,不會(huì)說(shuō)話。他還截圖發(fā)給我,問(wèn)我說(shuō)好的語(yǔ)音電話呢,我說(shuō)打語(yǔ)音電話需要按那個(gè)打電話的按鈕啊。所以這些經(jīng)典的 AI 劇真的要一個(gè)鏡頭一個(gè)鏡頭的拆解分析,里面有很多產(chǎn)品設(shè)計(jì)的細(xì)節(jié)。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

巧合的是,我們的第一臺(tái) H100 訓(xùn)練服務(wù)器就是在洛杉磯最老的郵局,后來(lái)改造成了一個(gè)金庫(kù),又改造成了一個(gè)數(shù)據(jù)中心。這個(gè)地方在洛杉磯的市中心,距離《Her》的拍攝地 Bradbury Building 只有不到 1 英里。

這個(gè)數(shù)據(jù)中心也是洛杉磯的互聯(lián)網(wǎng)交換局(Internet Exchange),距離 Google 和 Cloudflare 入口服務(wù)器的延遲都在 1 毫秒以內(nèi),其實(shí)都在這棟樓里面。從百年前的郵局到今天的互聯(lián)網(wǎng)交換局,真的是挺有意思的。

有趣的AI

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

那么我們首先來(lái)看一看如何去構(gòu)建一個(gè)真正有趣的AI。有趣的AI我認(rèn)為就像一個(gè)有趣的人,可以分為好看的皮囊和有趣的靈魂這兩個(gè)方面。

好看的皮囊就是它能夠聽得懂語(yǔ)音,看得懂文本、圖片和視頻,有這樣一個(gè)視頻、語(yǔ)音的形象,能夠跟人實(shí)時(shí)交互。

有趣的靈魂就是它需要像人一樣能夠去獨(dú)立思考,有長(zhǎng)期記憶,有自己的個(gè)性。

下面我們就分別從好看的皮囊和有趣的靈魂兩個(gè)方面來(lái)講。

好看的皮囊:多模態(tài)理解能力

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

說(shuō)到好看的皮囊,很多人認(rèn)為只要有一個(gè)3D的形象能夠在這兒搖頭晃腦地展示就行了。但是我認(rèn)為更關(guān)鍵的一部分是AI能夠去看到,并且理解周圍的世界,就是他的視覺理解能力是很關(guān)鍵的,不管是機(jī)器人還是可穿戴設(shè)備,還是手機(jī)上的攝像頭。

比如說(shuō)像Google的Gemini演示視頻就做得不錯(cuò),雖然它做了剪輯,但是如果我們真正能做到它這么好的效果,是一定不愁用戶的。

我們回顧一下Gemini演示視頻中的幾個(gè)片段,給一個(gè)畫鴨子的視頻它能描述鴨子是什么,給一個(gè)餅干和橘子能對(duì)比它們的不同,給一個(gè)簡(jiǎn)筆畫小游戲知道該往哪邊走,給兩團(tuán)毛線可以畫出一個(gè)用它能織出的毛絨玩具,給幾個(gè)行星的圖能夠?qū)λ鼈冋_排序,給一個(gè)貓?zhí)瞎褡拥囊曨l能夠描述發(fā)生了什么。

雖然效果非常驚艷,其實(shí)仔細(xì)想想,這些場(chǎng)景都不是很難做出來(lái)的,只要會(huì)看圖說(shuō)話,也就是給圖片生成一個(gè)比較好的caption,這些問(wèn)題大模型就都能回答了。

語(yǔ)音能力也是非常關(guān)鍵的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一個(gè)語(yǔ)音聊天 AI Agent,一聊聊了一整天,室友還以為我在跟老婆煲電話粥,就沒(méi)來(lái)打擾我。當(dāng)他知道我是在跟 AI 聊天的時(shí)候,說(shuō)我怎么能跟 AI 聊這么久。我給他看了看我們的聊天記錄,他說(shuō) AI 確實(shí)挺能聊的,他用 ChatGPT 不愿意聊這么久,是因?yàn)閼械么蜃帧?/p>

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

我認(rèn)為,多模態(tài)大模型有三條路。第一條是用多模態(tài)數(shù)據(jù)端到端預(yù)訓(xùn)練的模型,Google 的 Gemini 就是這么做出來(lái)的,最近 Berkeley 的 LVM 也是端到端多模態(tài)的,我認(rèn)為這是最有前景的一個(gè)方向。當(dāng)然這條路需要非常多的計(jì)算資源。

現(xiàn)在還有一種工程化的方案,是用膠水層去粘接已經(jīng)訓(xùn)練好的模型,比如目前圖片理解做得最好的 GPT-4V,還有學(xué)術(shù)界開源的 MiniGPT-4/v2,LLaVA 等等。膠水層是我的叫法,專業(yè)名詞叫做 projection layer,比如右上角這個(gè) MiniGPT 架構(gòu)圖中,標(biāo)著 "" 的 6 個(gè)框就是 projection layer。

輸入的圖片、語(yǔ)音、視頻分別通過(guò)不同的 encoder 去做編碼,編碼結(jié)果經(jīng)過(guò) projection layer 映射到 token,輸入給 Transformer 大模型。大模型的輸出 token 經(jīng)過(guò) projection layer,分別映射到圖片、語(yǔ)音、視頻的解碼器,這樣就可以生成圖片、語(yǔ)音、視頻了。

在這個(gè)膠水層粘接的方案里,可以看到 encoder、decoder 和大模型上面都標(biāo)著 "??",那就是凍結(jié)權(quán)重的意思。使用多模態(tài)數(shù)據(jù)訓(xùn)練的時(shí)候,只修改 projection layer 部分的權(quán)重,不修改其他部分的權(quán)重,這樣訓(xùn)練的成本就能大大降低,只要幾百美金就能訓(xùn)練出一個(gè)多模態(tài)大模型。

第三條路是第二條路推向極致的方案,連 projection layer 都不要了,直接用文本去粘接encoder、decoder和文本大模型,不需要做任何訓(xùn)練。例如語(yǔ)音部分就是先做語(yǔ)音識(shí)別,把語(yǔ)音轉(zhuǎn)換成文字輸入給大模型,然后再把大模型的輸出送給語(yǔ)音合成模型生成音頻。不要小看這種聽起來(lái)很土的方案,在語(yǔ)音領(lǐng)域,目前這種方案還是最靠譜的,現(xiàn)有的多模態(tài)大模型在識(shí)別和合成人類說(shuō)話語(yǔ)音方面都不太行。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

Google Gemini 的語(yǔ)音對(duì)話響應(yīng)延遲只有 0.5 秒,這是一個(gè)真人都很難達(dá)到的延遲,真人的延遲一般在 1 秒左右。我們現(xiàn)有的語(yǔ)音聊天產(chǎn)品,比如 ChatGPT,語(yǔ)音對(duì)話延遲高達(dá) 5~10 秒。因此大家才會(huì)覺得 Google Gemini 的效果非常驚艷。

那么這個(gè)效果是不是很難做出來(lái)呢?其實(shí)我們現(xiàn)在用開源的方案就可以做出來(lái)2秒以內(nèi)的語(yǔ)音對(duì)話響應(yīng)延遲,而且還包含實(shí)時(shí)視頻理解。

我們先不考慮視覺部分,先只看語(yǔ)音部分。在一個(gè)語(yǔ)音電話里,收到語(yǔ)音后首先做停頓檢測(cè),發(fā)現(xiàn)用戶說(shuō)話結(jié)束了,就把這一段音頻送到Whisper去做語(yǔ)音識(shí)別。停頓檢測(cè)比如人聲結(jié)束后等待0.5秒,然后Whisper語(yǔ)音識(shí)別大概需要0.5秒。

然后送到文本模型去做生成,用開源模型生成的速度其實(shí)非常快,比如最近比較火的 Mixtral 8x7B MoE 模型,輸出第一個(gè) token 只需要 0.2 秒,每秒輸出 50 個(gè) token 不是問(wèn)題,那么第一句話假設(shè)有 20 個(gè) token,就需要 0.4 秒。第一句話生成完了,就交給語(yǔ)音合成模型去合成語(yǔ)音,VITS 只需要 0.3 秒。

加上0.1秒的網(wǎng)絡(luò)時(shí)延,這樣端到端算下來(lái)只要1.8秒的延遲,已經(jīng)比市面上的大多數(shù)實(shí)時(shí)語(yǔ)音電話產(chǎn)品好很多了。比如ChatGPT語(yǔ)音電話的延遲是5~10秒。而且我們的方案中,停頓檢測(cè)和語(yǔ)音識(shí)別部分的延遲還有優(yōu)化空間。

我們?cè)倏?Google Gemini 演示的視頻理解場(chǎng)景。

因?yàn)槲覀儸F(xiàn)在的多模態(tài)模型輸入的基本都是圖片,而不是流式視頻,所以首先需要把視頻變成圖片,截取關(guān)鍵幀。比如每0.5秒截取一幀,這里面就有平均0.3秒的延遲。圖片可以直接送進(jìn)MiniGPT-v2或者Fuyu-8B這樣的開源多模態(tài)模型。但是由于這些模型比較小,實(shí)際用起來(lái)效果并不是很好,跟GPT-4V差距比較大。

因此我們可以采取傳統(tǒng)CV與多模態(tài)大模型相結(jié)合的方案,用 Dense Captions 這個(gè)技術(shù)識(shí)別出圖片中的所有物體及其位置,并且用 OCR 識(shí)別圖片中的所有文本。再把 OCR 結(jié)果,Dense Captions 的物體識(shí)別結(jié)果作為原始圖片的補(bǔ)充文字,都輸入到 MiniGPT-v2 或者 Fuyu-8B 這種多模態(tài)大模型里面。對(duì)于菜單、說(shuō)明書一類的圖片,OCR 的作用是非常大的,因?yàn)閱慰慷嗄B(tài)大模型經(jīng)常識(shí)別不清楚大塊文字。

這個(gè)識(shí)別圖片中物體和文字的步驟增加了額外的 0.5 秒延遲,但是我們看一下延遲分解,就會(huì)發(fā)現(xiàn)視頻部分根本不是瓶頸,只有 0.9 秒,而語(yǔ)音輸入部分反而是瓶頸,需要 1.1 秒。在 Google Gemini 這個(gè)演示場(chǎng)景中,從看到視頻到AI文字開始輸出只要1.3秒,從看到視頻到AI語(yǔ)音開始播放只要1.8秒,雖然沒(méi)有演示視頻的 0.5 秒這么酷炫,但也足夠完爆市面上的所有產(chǎn)品了。這里面用的還全部都是開源模型,一點(diǎn)訓(xùn)練都不需要做。如果公司自己有一些自己訓(xùn)練和優(yōu)化模型的能力,想象空間就更大了。

Google Gemini 演示視頻分為兩種任務(wù):生成文本/語(yǔ)音和生成圖片。在生成圖片的時(shí)候,可以根據(jù)文本,調(diào)用 Stable Diffusion 或者最近新出的 LCM 模型,只要 4 個(gè) step 甚至 1 個(gè) step 就可以生成圖片,圖片生成的延遲可以做到 1.8 秒,那么從看到圖到生成圖的端到端時(shí)間就只有 3.3 秒,也是非常快的了。

好看的皮囊:多模態(tài)生成能力

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

語(yǔ)音克隆是制作名人或者動(dòng)漫游戲角色的重要技術(shù),目前 ElevenLabs 做得是最好的,但是 ElevenLabs 的 API 很貴。XTTS v2 之類的開源方案合成語(yǔ)音的相似度不高。

我認(rèn)為要想語(yǔ)音克隆效果好,還是要靠大量的語(yǔ)音數(shù)據(jù)來(lái)做訓(xùn)練。但是傳統(tǒng)語(yǔ)音訓(xùn)練所需的數(shù)據(jù)一般對(duì)質(zhì)量要求很高,必須是錄音棚里面錄制的口齒清晰的語(yǔ)音數(shù)據(jù),因此采集語(yǔ)音數(shù)據(jù)的成本很高。但我們不可能要求名人到錄音棚里去給我們專門錄制語(yǔ)音,只能用YouTube等公開視頻的語(yǔ)音做訓(xùn)練。YouTube 語(yǔ)音往往是訪談形式,里面有多個(gè)人說(shuō)話,而且有背景噪聲,名人說(shuō)話的過(guò)程中也可能有結(jié)巴和口齒不清。如何用這樣的語(yǔ)音訓(xùn)練語(yǔ)音克隆呢?

我們搭建了一套基于VITS搭建的語(yǔ)音克隆流水線,可以自動(dòng)把視頻中的人聲從背景噪聲中區(qū)分出來(lái),拆分成句子之后,識(shí)別出有哪幾個(gè)說(shuō)話人,針對(duì)我們想要的人的語(yǔ)音,篩選出其中信噪比較高的語(yǔ)音,然后識(shí)別出文字,最后這些清洗過(guò)的語(yǔ)音和文字送去做批量微調(diào)。

微調(diào)過(guò)程也是很有技術(shù)含量的。首先,微調(diào)的基礎(chǔ)語(yǔ)音需要是比較相似的語(yǔ)音,比如一個(gè)男生的語(yǔ)音用一個(gè)女生的語(yǔ)音作為基礎(chǔ)去微調(diào),那效果肯定不好。如何從語(yǔ)音庫(kù)里找到相似的語(yǔ)音來(lái)做微調(diào)是需要一個(gè)音色相似度檢測(cè)模型,類似聲紋識(shí)別的模型。像ElevenLabs的基礎(chǔ)語(yǔ)音模型中就已經(jīng)包含了大量不同音色人的高質(zhì)量數(shù)據(jù),因此在語(yǔ)音克隆的時(shí)候,很多時(shí)候能夠從語(yǔ)音庫(kù)中找到很相似的語(yǔ)音,這樣不需要做微調(diào)就能zero-shot生成不錯(cuò)的語(yǔ)音。

其次,VITS訓(xùn)練過(guò)程中不能根據(jù)簡(jiǎn)單的loss判斷收斂,以往都是要靠人耳朵去聽哪個(gè)epoch的效果最好,這樣就需要大量的人工成本。我們開發(fā)了音色相似度檢測(cè)模型和發(fā)音清晰度檢測(cè)模型,可以自動(dòng)判斷語(yǔ)音的微調(diào)結(jié)果哪個(gè)更好。

(注:這個(gè)報(bào)告是2023年12月做的,目前GPT-soVITS的路線比VITS更好,可以實(shí)現(xiàn)zero-shot語(yǔ)音克隆,不再需要收集大量高質(zhì)量語(yǔ)音做訓(xùn)練。開源模型可以合成的語(yǔ)音質(zhì)量終于逼近ElevenLabs的水平了。)

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

很多人認(rèn)為不需要自研語(yǔ)音合成模型,直接調(diào)用 ElevenLabs、OpenAI 或者 Google Cloud 的 API 就行了。

但是 ElevenLabs 的 API 非常貴,如果走零售定價(jià),每 1K 字符需要 0.18 美金,按照一個(gè) token 4 個(gè)字符計(jì)算,相當(dāng)于 $0.72 / 1K tokens 了,這是比GPT-4Turbo都要貴24倍的。ElevenLabs 雖然效果好,但是如果 to C 產(chǎn)品大規(guī)模使用,這個(gè)價(jià)格是真的燒不起。

OpenAI 和 Google Cloud 的語(yǔ)音合成 API 不支持語(yǔ)音克隆,只有那幾個(gè)固定的聲音,這樣就沒(méi)法克隆名人語(yǔ)音了,只能做一個(gè)冷冰冰的機(jī)器人播報(bào)。但即使這樣,成本也是比 GPT-4 Turbo 貴 1 倍的,也就是成本的大頭不是花在大模型上,而是花在語(yǔ)音合成上。

大概也是因?yàn)檎Z(yǔ)音不好做,很多 to C 的產(chǎn)品都選擇只支持文字,但實(shí)時(shí)語(yǔ)音交互的用戶體驗(yàn)明顯是更好的。

雖然基于 VITS 很難實(shí)現(xiàn) ElevenLabs 級(jí)別質(zhì)量的語(yǔ)音,但基本可用是沒(méi)有問(wèn)題的。自己部署 VITS 的成本只要 $0.0005 / 1K 字符,是 OpenAI 和 Google Cloud TTS 價(jià)格的 1/30,ElevenLabs 價(jià)格的 1/360。這個(gè) $2 / 1M tokens 的語(yǔ)音合成成本也跟自己部署開源文本大模型的成本差不多,這樣文本和語(yǔ)音的成本就都降下來(lái)了。

因此如果真的打算把語(yǔ)音作為一個(gè)用戶體驗(yàn)的重大加分項(xiàng),基于開源自研語(yǔ)音模型不僅是必要的,也是可行的。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

我們知道圖片生成現(xiàn)在已經(jīng)比較成熟,視頻生成會(huì)是2024年一個(gè)非常重要的方向。視頻生成不僅僅是生成素材這么簡(jiǎn)單,更重要的是讓每個(gè)人都能輕松成為視頻內(nèi)容的創(chuàng)作者,更進(jìn)一步,讓每個(gè) AI 數(shù)字分身都有自己的形象,可以用視頻的方式來(lái)交流。

相關(guān)內(nèi)容

原華為“天才少年”4萬(wàn)字演...
近期,一篇4萬(wàn)字的演講風(fēng)靡于國(guó)內(nèi)人工智能(AI)學(xué)術(shù)圈。
2024-04-05 19:07:18

熱門資訊

四川81歲大爺花25元嫖娼被抓... 都說(shuō)“人不風(fēng)流枉少年”,可事實(shí)上風(fēng)流的又豈只有少年!近日,四川警方抓獲一起嫖娼案件,便刷新了網(wǎng)友的三...
重度燒傷消防員劉攀女友宣布懷孕... 全身燒傷面積93%是個(gè)什么概念?一般情況下,燒傷50%以上就算是很嚴(yán)重了,93%幾乎身上就沒(méi)有完整的...
笑壞了!31歲網(wǎng)紅“俄羅斯娜娜... 她的離開讓我們開始思考人生的短暫和無(wú)常。 娜娜走了,真叫人心疼,也引發(fā)了大家對(duì)她跟老公王濤感情的揣測(cè)...
女孩退伍224天后收到部隊(duì)轉(zhuǎn)賬... 【女孩退伍224天后收到部隊(duì)轉(zhuǎn)賬,數(shù)說(shuō)不盡的家國(guó)情懷】在山東泰安,一位名叫小樊的女孩在退伍224天后...
重度燒傷消防員劉攀女友宣布懷孕... 全身燒傷面積93%是個(gè)什么概念?一般情況下,燒傷50%以上就算是很嚴(yán)重了,93%幾乎身上就沒(méi)有完整的...
北方30℃以上區(qū)域?qū)⒊善霈F(xiàn) ... 四月二十四日,江南、華南地區(qū)遭遇新一輪降雨。二十五日為此次降雨過(guò)程的峰值階段,廣東中南部局部地區(qū)出現(xiàn)...
南昌3人墜樓小區(qū)開發(fā)商曾涉貪腐... 在南昌的一場(chǎng)強(qiáng)對(duì)流天氣中,不僅有1600多棵樹被吹倒,還有4人死亡,10余人受傷。其中,南昌縣偉夢(mèng)清...
北京三里屯一男子遛“卡皮巴拉”... 近日,北京三里屯的繁華街頭,一位瀟灑的男子帶著他的特殊伙伴悠閑地漫步,這一不同尋常的組合立刻成為了眾...
312人!警方搗毀一大型賣淫團(tuán)... 近日,在浙江省公安廳、紹興市治安支隊(duì)的統(tǒng)一指揮下,紹興嵊州警方搗毀了一個(gè)利用網(wǎng)絡(luò)平臺(tái)介紹賣淫的跨省組...
與鳳行中的顧成錦與大結(jié)局 故事發(fā)生在三年前的一個(gè)青盛城,顧成錦與妻子葉詩(shī)在外旅行時(shí)遭遇刺殺。這個(gè)法子需要飼養(yǎng)許多妖靈,其中一只...
主站蜘蛛池模板: 穿着丝袜被男生强行啪啪 | 麻豆国产自制在线观看 | 99热这里只有精品6 99热这里只有精品 99热这里只有的精品 | 99热成人精品国产免男男 | 动漫美女被吸奶 | av在线色| 动漫美女被吸奶 | 国产精品人妻久久无码不卡 | 久青草国产观看在线视频 | 一个人在线观看视频免费 | 99久久国内精品成人免费 | 国产亚洲精品字幕在线观看 | 性饥渴姓交HDSEX | 在线看免费毛片 | 中文字幕不卡一区二区三区 | 男女久久久国产一区二区三区 | 人体内射精一区二区三区 | 小草影院免费 | 国产精品视频一区二区猎奇 | 粉嫩无套白浆第一次jk | 日本肉肉口番工全彩动漫 | 日日久久狠狠8888偷偷色 | 国产欧美日韩综合精品一区二区 | 亚洲精品久久无码AV片银杏 | 在线 日韩 欧美 国产 社区 | 久久秋霞理论电影 | 神马电影我不卡4k手机在线观看 | 久久国产精品久久国产精品 | 日韩精品一区二区三区AV在线观看 | 妻子的秘密HD观看 | 永久免费的污视频网站 | 玩高中女同桌肉色短丝袜脚文 | 秋霞电影网伦大理电影在线观看 | 国产精品99re6热在线播放 | 二次元美女扒开内裤喷水 | 和姐姐做插得很深 | CHINA中国东北GURMA | 欧美最猛性XXXXX肛交 | seyeye在清在线 | 色老99九久精品偷偷鲁 | 午夜男女爽爽羞羞影院在线观看 |