欧美亚洲色帝国,欧美GAY猛男GAYA片18禁,china男士同性视频tv

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

佚名

2024-04-05 19:07:18

0次

近期，一篇4萬(wàn)字的演講風(fēng)靡于國(guó)內(nèi)人工智能（AI）學(xué)術(shù)圈。

原華為"天才少年"、Logenic AI公司聯(lián)合創(chuàng)始人李博杰博士，日前發(fā)表了一篇關(guān)于AI Agent思考的文章，題為"AI Agent 應(yīng)該更有趣還是更有用"。

李博杰在這篇文章中表示，AI的發(fā)展目前有兩個(gè)方向，一個(gè)是有趣的AI，也就是更像人的AI；另外一個(gè)方向就是更有用的AI，也就是更像工具的AI。但目前的AI技術(shù)，要么是只有趣但沒(méi)用，要么是只有用但是不像人，"不好玩"。

李博杰指出，通用人工智能（AGI）的目標(biāo)是，兼具慢思考和類人屬性的 AI Agent，然而當(dāng)前 AI Agent 和人類夢(mèng)想之間存在巨大的差距。

李博杰坦言，Video Diffusion 是一個(gè)更為終極的技術(shù)路線。盡管大模型的成本一定會(huì)快速降低，但他不建議貿(mào)然自己去做基礎(chǔ)模型。

"如果沒(méi)有拳打OpenAI、腳踢Anthropic的實(shí)力，在效果上比不過(guò)最好的閉源模型，成本上也比不上開源模型。"李博杰表示。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

據(jù)悉，李博杰今年31歲（1992年生），曾任華為2012實(shí)驗(yàn)室中央軟件研究所計(jì)算機(jī)網(wǎng)絡(luò)與協(xié)議實(shí)驗(yàn)室、分布式與并行軟件實(shí)驗(yàn)室助理科學(xué)家、副首席專家，并且以第一批"天才少年"的身份于2019年加入華為，職級(jí)P20 （技術(shù)專家A級(jí)別）。

早在2010年，他進(jìn)入中國(guó)科學(xué)技術(shù)大學(xué)少年班學(xué)院學(xué)習(xí)。在校期間，擔(dān)任中科大鏡像站USTC Mirrors的維護(hù)者。2014年，李博杰以聯(lián)合培養(yǎng)博士生的身份，加入中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院（MSRA）的聯(lián)合項(xiàng)目。

幾乎同時(shí)，2019年，李博杰獲得中國(guó)科學(xué)技術(shù)大學(xué)與微軟亞洲研究院的合作培養(yǎng)博士生項(xiàng)目中取得計(jì)算機(jī)科學(xué)學(xué)位，導(dǎo)師為張霖濤教授和陳恩紅教授。

2023年7月，李博杰離開華為后成立了Logenic AI，致力于成為人類的數(shù)字化延伸。憑借尖端的AIGC基礎(chǔ)設(shè)施，Logenic AI 能夠協(xié)作制作和服務(wù)多模式角色Agent，"元宇宙"、以及數(shù)字雙胞胎等角色。

李博杰表示，"我們都相信 AGI 肯定會(huì)到來(lái)，唯一值得爭(zhēng)論的是到達(dá) AGI 的增長(zhǎng)曲線是怎樣的，是這一波自回歸模型隨著 scaling law，直接高速增長(zhǎng)到 AGI；還是這一波自回歸模型也會(huì)遇到瓶頸，AGI 還需要等待下一波技術(shù)革命。10 年前 ResNet 掀起 CV 革命的時(shí)候，很多人都對(duì) AI 的發(fā)展預(yù)期過(guò)于樂(lè)觀。這一波 Transformer 會(huì)是通向 AGI 的坦途嗎？"

李博杰強(qiáng)調(diào)，AI Agent 的創(chuàng)作者可以盈利。因此，好看的皮囊、有趣的靈魂、有用的 AI、低成本和去中心化，AI Agent 將推動(dòng)整個(gè) AI 領(lǐng)域持續(xù)創(chuàng)新和健康發(fā)展。

"我們相信，在人類世界的數(shù)字延伸中，有趣的靈魂終會(huì)相遇。"李博杰稱。

以下是李博杰演講內(nèi)容全文，共約4萬(wàn)字，Enjoy：

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

非常榮幸來(lái)到科大校友會(huì) AI 沙龍分享一些我對(duì) AI Agent 的思考。

我是 1000（2010 級(jí)理科實(shí)驗(yàn)班）的李博杰，2014-2019 年在中科大和微軟亞洲研究院讀聯(lián)合培養(yǎng)博士，2019-2023 年是華為首屆天才少年，如今我跟一批科大校友一起在做 AI Agent 領(lǐng)域的創(chuàng)業(yè)。

今天（去年12月）是湯曉鷗教授的頭七，因此我特別把今天的PPT調(diào)成了黑色背景，這也是我第一次用黑色背景的PPT做報(bào)告。我也希望，隨著AI技術(shù)的發(fā)展，未來(lái)每個(gè)人都可以有自己的數(shù)字分身，實(shí)現(xiàn)靈魂在數(shù)字世界中的永生，在這個(gè)世界里生命不再有限，也就不再有分離的悲傷。

AI：有趣和有用

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

AI的發(fā)展目前一直有兩個(gè)方向，一個(gè)是有趣的AI，也就是更像人的AI；另外一個(gè)方向就是更有用的AI，也就是更像工具的AI。

AI 應(yīng)該更像人還是更像工具呢？其實(shí)是有很多爭(zhēng)議的。比如說(shuō) OpenAI 的 CEO Sam Altman 就說(shuō)，AI 應(yīng)該是一個(gè)工具，它不應(yīng)該是一個(gè)生命。而很多科幻電影里的 AI 其實(shí)更像人，比如說(shuō) Her 里面的 Samantha，還有《流浪地球 2》里面的圖丫丫，黑鏡里面的 Ash，所以我們希望能把這些科幻中的場(chǎng)景帶到現(xiàn)實(shí)。只有少數(shù)科幻電影里面的 AI 是工具向的，比如《鋼鐵俠》里面的賈維斯。

除了有趣和有用這個(gè)水平方向的之外，還有另外一個(gè)上下的維度，就是快思考和慢思考。這是一個(gè)神經(jīng)科學(xué)的概念，出自一本書《思考，快與慢》，它里面就說(shuō)人的思考可以分為快思考和慢思考。

所謂的快思考就是不需要過(guò)腦子的基礎(chǔ)視覺、聽覺等感知能力和說(shuō)話等表達(dá)能力，像 ChatGPT、stable diffusion 這種一問(wèn)一答、解決特定問(wèn)題的 AI 可以認(rèn)為是一種工具向的快思考，你不問(wèn)它問(wèn)題的時(shí)候，它不會(huì)主動(dòng)去找你。而 Character AI、Inflection Pi 和 Talkie（星野）這些 AI Agent 產(chǎn)品都是模擬一個(gè)人或者動(dòng)漫游戲角色的對(duì)話，但這些對(duì)話不涉及復(fù)雜任務(wù)的解決，也沒(méi)有長(zhǎng)期記憶，因此只能用來(lái)閑聊，沒(méi)法像 Her 里面的 Samantha 那樣幫忙解決生活和工作中的問(wèn)題。

而慢思考就是有狀態(tài)的復(fù)雜思考，也就是說(shuō)如何去規(guī)劃和解決一個(gè)復(fù)雜的問(wèn)題，先做什么、后做什么。比如 MetaGPT 寫代碼是模擬一個(gè)軟件開發(fā)團(tuán)隊(duì)的分工合作，AutoGPT 是把一個(gè)復(fù)雜任務(wù)拆分成很多個(gè)階段來(lái)一步步完成，雖然這些系統(tǒng)在實(shí)用中還有很多問(wèn)題，但已經(jīng)是一個(gè)具備慢思考能力的雛形了。

遺憾的是，現(xiàn)有產(chǎn)品中幾乎沒(méi)有在第一象限，兼具慢思考和類人屬性的 AI Agent。斯坦福 AI 小鎮(zhèn)是個(gè)不錯(cuò)的學(xué)術(shù)界嘗試，但斯坦福 AI 小鎮(zhèn)里面沒(méi)有真人的交互，而且 AI Agent 一天的作息時(shí)間表都是事先排好的，因此并不是很有趣。

有趣的是，科幻電影里面的AI其實(shí)大部分是在這個(gè)第一象限。因此這就是目前 AI Agent 和人類夢(mèng)想之間的差距。

因此我們?cè)谧龅氖虑楦?Sam Altman 說(shuō)的正好相反，我們希望讓 AI 更像人，同時(shí)又具備慢思考的能力，最終演進(jìn)成一個(gè)數(shù)字生命。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

請(qǐng)輸入圖說(shuō)

今天大家都在講AGI的故事，AGI就是通用人工智能。什么是AGI呢？我覺得它又需要有趣，又需要有用。

有趣的方面，就是它需要能夠有自主思考的能力、有自己的個(gè)性和感情。而有用的方面，就是AI能夠解決工作、生活中的問(wèn)題。現(xiàn)在的AI要么是只有趣但沒(méi)用，要么是只有用但是不像人，不好玩。

比如說(shuō)像 Character AI 之類的角色扮演產(chǎn)品，它不能幫你完成工作或者生活中的問(wèn)題，但是它可以模擬一個(gè) Elon Musk、Donald Trump 或者原神里面的派蒙。我看過(guò)一個(gè)分析報(bào)告，說(shuō) Character AI 有上千萬(wàn)的用戶，但每個(gè)月的營(yíng)收只有幾十萬(wàn)美金，相當(dāng)于只有幾萬(wàn)付費(fèi)用戶。大多數(shù)用戶跟每個(gè)虛擬角色都是聊 10 分鐘、20 分鐘就不知道該說(shuō)什么了。那為什么它的用戶留存不高、付費(fèi)率也低呢？因?yàn)樗葲](méi)有給人提供情緒價(jià)值，又沒(méi)有給人提供實(shí)用價(jià)值。

而另一方面就是有用的AI，比如各種Copilot，他們又都是冷冰冰的，問(wèn)一句答一句，完全是一個(gè)工具。這些工具甚至記不住你之前干過(guò)什么，記不住你的喜好和習(xí)慣。那么用戶自然只會(huì)在需要這個(gè)工具的時(shí)候想起來(lái)用它，不需要的時(shí)候就會(huì)丟到一邊。

我認(rèn)為未來(lái)真正有價(jià)值的AI就像電影《Her》里面的Samantha，她首先是一個(gè)操作系統(tǒng)的定位，能夠幫主人公去解決很多生活中、工作中的問(wèn)題，幫他整理郵件等等，而且比傳統(tǒng)的操作系統(tǒng)做得又快又好。同時(shí)它又有記憶、有感情、有意識(shí)，它不像一個(gè)電腦，而是像一個(gè)人。因此在感情空窗期的主人公 Theodore 就逐漸愛上了他的操作系統(tǒng) Samantha。當(dāng)然并不是所有人都把 Samantha 作為虛擬伴侶，劇中也說(shuō)了，只有 10% 的用戶跟他們的操作系統(tǒng)發(fā)展了浪漫關(guān)系。這樣的 AI Agent 我認(rèn)為才是真正有價(jià)值的。

另外值得說(shuō)道的一點(diǎn)是，全劇中這個(gè)Samantha只有語(yǔ)音交互，沒(méi)有視覺形象，更不是機(jī)器人。目前AI的能力也恰好是語(yǔ)音和文字很成熟，但視頻生成就不夠成熟，人形機(jī)器人也不夠成熟。《黑鏡》里面的機(jī)器人Ash就是個(gè)反例。這部劇里面先是用女主過(guò)世男友Ash的社交網(wǎng)絡(luò)資料制作了一個(gè)語(yǔ)音伴侶，直接把女主給弄哭了，其實(shí)做出那個(gè)語(yǔ)音伴侶現(xiàn)在的技術(shù)已經(jīng)綽綽有余了。后來(lái)女主加錢升級(jí)，上傳了一堆視頻資料，買了一個(gè)長(zhǎng)得像Ash的人形機(jī)器人，其實(shí)現(xiàn)在的技術(shù)也做不到，但就算如此，Ash的女友還是覺得不像，因此把他鎖在閣樓里面了。這里面就有個(gè)恐怖谷效應(yīng)，如果做得不夠逼真，就保持一定的距離。

順便說(shuō)一句，《黑鏡》里面女主先是文字聊天，然后說(shuō)了一句 Can you talk to me？然后就接通電話了。試用我們 AI Agent 的一個(gè)朋友還真的也這么問(wèn)我們的 AI Agent，結(jié)果我們的 AI Agent 回答，我是一個(gè) AI，只能文字交流，不會(huì)說(shuō)話。他還截圖發(fā)給我，問(wèn)我說(shuō)好的語(yǔ)音電話呢，我說(shuō)打語(yǔ)音電話需要按那個(gè)打電話的按鈕啊。所以這些經(jīng)典的 AI 劇真的要一個(gè)鏡頭一個(gè)鏡頭的拆解分析，里面有很多產(chǎn)品設(shè)計(jì)的細(xì)節(jié)。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

巧合的是，我們的第一臺(tái) H100 訓(xùn)練服務(wù)器就是在洛杉磯最老的郵局，后來(lái)改造成了一個(gè)金庫(kù)，又改造成了一個(gè)數(shù)據(jù)中心。這個(gè)地方在洛杉磯的市中心，距離《Her》的拍攝地 Bradbury Building 只有不到 1 英里。

這個(gè)數(shù)據(jù)中心也是洛杉磯的互聯(lián)網(wǎng)交換局（Internet Exchange），距離 Google 和 Cloudflare 入口服務(wù)器的延遲都在 1 毫秒以內(nèi)，其實(shí)都在這棟樓里面。從百年前的郵局到今天的互聯(lián)網(wǎng)交換局，真的是挺有意思的。

有趣的AI

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

那么我們首先來(lái)看一看如何去構(gòu)建一個(gè)真正有趣的AI。有趣的AI我認(rèn)為就像一個(gè)有趣的人，可以分為好看的皮囊和有趣的靈魂這兩個(gè)方面。

好看的皮囊就是它能夠聽得懂語(yǔ)音，看得懂文本、圖片和視頻，有這樣一個(gè)視頻、語(yǔ)音的形象，能夠跟人實(shí)時(shí)交互。

有趣的靈魂就是它需要像人一樣能夠去獨(dú)立思考，有長(zhǎng)期記憶，有自己的個(gè)性。

下面我們就分別從好看的皮囊和有趣的靈魂兩個(gè)方面來(lái)講。

好看的皮囊：多模態(tài)理解能力

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

說(shuō)到好看的皮囊，很多人認(rèn)為只要有一個(gè)3D的形象能夠在這兒搖頭晃腦地展示就行了。但是我認(rèn)為更關(guān)鍵的一部分是AI能夠去看到，并且理解周圍的世界，就是他的視覺理解能力是很關(guān)鍵的，不管是機(jī)器人還是可穿戴設(shè)備，還是手機(jī)上的攝像頭。

比如說(shuō)像Google的Gemini演示視頻就做得不錯(cuò)，雖然它做了剪輯，但是如果我們真正能做到它這么好的效果，是一定不愁用戶的。

我們回顧一下Gemini演示視頻中的幾個(gè)片段，給一個(gè)畫鴨子的視頻它能描述鴨子是什么，給一個(gè)餅干和橘子能對(duì)比它們的不同，給一個(gè)簡(jiǎn)筆畫小游戲知道該往哪邊走，給兩團(tuán)毛線可以畫出一個(gè)用它能織出的毛絨玩具，給幾個(gè)行星的圖能夠?qū)λ鼈冋_排序，給一個(gè)貓?zhí)瞎褡拥囊曨l能夠描述發(fā)生了什么。

雖然效果非常驚艷，其實(shí)仔細(xì)想想，這些場(chǎng)景都不是很難做出來(lái)的，只要會(huì)看圖說(shuō)話，也就是給圖片生成一個(gè)比較好的caption，這些問(wèn)題大模型就都能回答了。

語(yǔ)音能力也是非常關(guān)鍵的。我 10 月份基于 Google ASR/TTS 和 GPT-4 做了一個(gè)語(yǔ)音聊天 AI Agent，一聊聊了一整天，室友還以為我在跟老婆煲電話粥，就沒(méi)來(lái)打擾我。當(dāng)他知道我是在跟 AI 聊天的時(shí)候，說(shuō)我怎么能跟 AI 聊這么久。我給他看了看我們的聊天記錄，他說(shuō) AI 確實(shí)挺能聊的，他用 ChatGPT 不愿意聊這么久，是因?yàn)閼械么蜃帧?/p>

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

我認(rèn)為，多模態(tài)大模型有三條路。第一條是用多模態(tài)數(shù)據(jù)端到端預(yù)訓(xùn)練的模型，Google 的 Gemini 就是這么做出來(lái)的，最近 Berkeley 的 LVM 也是端到端多模態(tài)的，我認(rèn)為這是最有前景的一個(gè)方向。當(dāng)然這條路需要非常多的計(jì)算資源。

現(xiàn)在還有一種工程化的方案，是用膠水層去粘接已經(jīng)訓(xùn)練好的模型，比如目前圖片理解做得最好的 GPT-4V，還有學(xué)術(shù)界開源的 MiniGPT-4/v2，LLaVA 等等。膠水層是我的叫法，專業(yè)名詞叫做 projection layer，比如右上角這個(gè) MiniGPT 架構(gòu)圖中，標(biāo)著 "" 的 6 個(gè)框就是 projection layer。

輸入的圖片、語(yǔ)音、視頻分別通過(guò)不同的 encoder 去做編碼，編碼結(jié)果經(jīng)過(guò) projection layer 映射到 token，輸入給 Transformer 大模型。大模型的輸出 token 經(jīng)過(guò) projection layer，分別映射到圖片、語(yǔ)音、視頻的解碼器，這樣就可以生成圖片、語(yǔ)音、視頻了。

在這個(gè)膠水層粘接的方案里，可以看到 encoder、decoder 和大模型上面都標(biāo)著 "??"，那就是凍結(jié)權(quán)重的意思。使用多模態(tài)數(shù)據(jù)訓(xùn)練的時(shí)候，只修改 projection layer 部分的權(quán)重，不修改其他部分的權(quán)重，這樣訓(xùn)練的成本就能大大降低，只要幾百美金就能訓(xùn)練出一個(gè)多模態(tài)大模型。

第三條路是第二條路推向極致的方案，連 projection layer 都不要了，直接用文本去粘接encoder、decoder和文本大模型，不需要做任何訓(xùn)練。例如語(yǔ)音部分就是先做語(yǔ)音識(shí)別，把語(yǔ)音轉(zhuǎn)換成文字輸入給大模型，然后再把大模型的輸出送給語(yǔ)音合成模型生成音頻。不要小看這種聽起來(lái)很土的方案，在語(yǔ)音領(lǐng)域，目前這種方案還是最靠譜的，現(xiàn)有的多模態(tài)大模型在識(shí)別和合成人類說(shuō)話語(yǔ)音方面都不太行。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

Google Gemini 的語(yǔ)音對(duì)話響應(yīng)延遲只有 0.5 秒，這是一個(gè)真人都很難達(dá)到的延遲，真人的延遲一般在 1 秒左右。我們現(xiàn)有的語(yǔ)音聊天產(chǎn)品，比如 ChatGPT，語(yǔ)音對(duì)話延遲高達(dá) 5～10 秒。因此大家才會(huì)覺得 Google Gemini 的效果非常驚艷。

那么這個(gè)效果是不是很難做出來(lái)呢？其實(shí)我們現(xiàn)在用開源的方案就可以做出來(lái)2秒以內(nèi)的語(yǔ)音對(duì)話響應(yīng)延遲，而且還包含實(shí)時(shí)視頻理解。

我們先不考慮視覺部分，先只看語(yǔ)音部分。在一個(gè)語(yǔ)音電話里，收到語(yǔ)音后首先做停頓檢測(cè)，發(fā)現(xiàn)用戶說(shuō)話結(jié)束了，就把這一段音頻送到Whisper去做語(yǔ)音識(shí)別。停頓檢測(cè)比如人聲結(jié)束后等待0.5秒，然后Whisper語(yǔ)音識(shí)別大概需要0.5秒。

然后送到文本模型去做生成，用開源模型生成的速度其實(shí)非常快，比如最近比較火的 Mixtral 8x7B MoE 模型，輸出第一個(gè) token 只需要 0.2 秒，每秒輸出 50 個(gè) token 不是問(wèn)題，那么第一句話假設(shè)有 20 個(gè) token，就需要 0.4 秒。第一句話生成完了，就交給語(yǔ)音合成模型去合成語(yǔ)音，VITS 只需要 0.3 秒。

加上0.1秒的網(wǎng)絡(luò)時(shí)延，這樣端到端算下來(lái)只要1.8秒的延遲，已經(jīng)比市面上的大多數(shù)實(shí)時(shí)語(yǔ)音電話產(chǎn)品好很多了。比如ChatGPT語(yǔ)音電話的延遲是5～10秒。而且我們的方案中，停頓檢測(cè)和語(yǔ)音識(shí)別部分的延遲還有優(yōu)化空間。

我們?cè)倏?Google Gemini 演示的視頻理解場(chǎng)景。

因?yàn)槲覀儸F(xiàn)在的多模態(tài)模型輸入的基本都是圖片，而不是流式視頻，所以首先需要把視頻變成圖片，截取關(guān)鍵幀。比如每0.5秒截取一幀，這里面就有平均0.3秒的延遲。圖片可以直接送進(jìn)MiniGPT-v2或者Fuyu-8B這樣的開源多模態(tài)模型。但是由于這些模型比較小，實(shí)際用起來(lái)效果并不是很好，跟GPT-4V差距比較大。

因此我們可以采取傳統(tǒng)CV與多模態(tài)大模型相結(jié)合的方案，用 Dense Captions 這個(gè)技術(shù)識(shí)別出圖片中的所有物體及其位置，并且用 OCR 識(shí)別圖片中的所有文本。再把 OCR 結(jié)果，Dense Captions 的物體識(shí)別結(jié)果作為原始圖片的補(bǔ)充文字，都輸入到 MiniGPT-v2 或者 Fuyu-8B 這種多模態(tài)大模型里面。對(duì)于菜單、說(shuō)明書一類的圖片，OCR 的作用是非常大的，因?yàn)閱慰慷嗄B(tài)大模型經(jīng)常識(shí)別不清楚大塊文字。

這個(gè)識(shí)別圖片中物體和文字的步驟增加了額外的 0.5 秒延遲，但是我們看一下延遲分解，就會(huì)發(fā)現(xiàn)視頻部分根本不是瓶頸，只有 0.9 秒，而語(yǔ)音輸入部分反而是瓶頸，需要 1.1 秒。在 Google Gemini 這個(gè)演示場(chǎng)景中，從看到視頻到AI文字開始輸出只要1.3秒，從看到視頻到AI語(yǔ)音開始播放只要1.8秒，雖然沒(méi)有演示視頻的 0.5 秒這么酷炫，但也足夠完爆市面上的所有產(chǎn)品了。這里面用的還全部都是開源模型，一點(diǎn)訓(xùn)練都不需要做。如果公司自己有一些自己訓(xùn)練和優(yōu)化模型的能力，想象空間就更大了。

Google Gemini 演示視頻分為兩種任務(wù)：生成文本/語(yǔ)音和生成圖片。在生成圖片的時(shí)候，可以根據(jù)文本，調(diào)用 Stable Diffusion 或者最近新出的 LCM 模型，只要 4 個(gè) step 甚至 1 個(gè) step 就可以生成圖片，圖片生成的延遲可以做到 1.8 秒，那么從看到圖到生成圖的端到端時(shí)間就只有 3.3 秒，也是非常快的了。

好看的皮囊：多模態(tài)生成能力

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

語(yǔ)音克隆是制作名人或者動(dòng)漫游戲角色的重要技術(shù)，目前 ElevenLabs 做得是最好的，但是 ElevenLabs 的 API 很貴。XTTS v2 之類的開源方案合成語(yǔ)音的相似度不高。

我認(rèn)為要想語(yǔ)音克隆效果好，還是要靠大量的語(yǔ)音數(shù)據(jù)來(lái)做訓(xùn)練。但是傳統(tǒng)語(yǔ)音訓(xùn)練所需的數(shù)據(jù)一般對(duì)質(zhì)量要求很高，必須是錄音棚里面錄制的口齒清晰的語(yǔ)音數(shù)據(jù)，因此采集語(yǔ)音數(shù)據(jù)的成本很高。但我們不可能要求名人到錄音棚里去給我們專門錄制語(yǔ)音，只能用YouTube等公開視頻的語(yǔ)音做訓(xùn)練。YouTube 語(yǔ)音往往是訪談形式，里面有多個(gè)人說(shuō)話，而且有背景噪聲，名人說(shuō)話的過(guò)程中也可能有結(jié)巴和口齒不清。如何用這樣的語(yǔ)音訓(xùn)練語(yǔ)音克隆呢？

我們搭建了一套基于VITS搭建的語(yǔ)音克隆流水線，可以自動(dòng)把視頻中的人聲從背景噪聲中區(qū)分出來(lái)，拆分成句子之后，識(shí)別出有哪幾個(gè)說(shuō)話人，針對(duì)我們想要的人的語(yǔ)音，篩選出其中信噪比較高的語(yǔ)音，然后識(shí)別出文字，最后這些清洗過(guò)的語(yǔ)音和文字送去做批量微調(diào)。

微調(diào)過(guò)程也是很有技術(shù)含量的。首先，微調(diào)的基礎(chǔ)語(yǔ)音需要是比較相似的語(yǔ)音，比如一個(gè)男生的語(yǔ)音用一個(gè)女生的語(yǔ)音作為基礎(chǔ)去微調(diào)，那效果肯定不好。如何從語(yǔ)音庫(kù)里找到相似的語(yǔ)音來(lái)做微調(diào)是需要一個(gè)音色相似度檢測(cè)模型，類似聲紋識(shí)別的模型。像ElevenLabs的基礎(chǔ)語(yǔ)音模型中就已經(jīng)包含了大量不同音色人的高質(zhì)量數(shù)據(jù)，因此在語(yǔ)音克隆的時(shí)候，很多時(shí)候能夠從語(yǔ)音庫(kù)中找到很相似的語(yǔ)音，這樣不需要做微調(diào)就能zero-shot生成不錯(cuò)的語(yǔ)音。

其次，VITS訓(xùn)練過(guò)程中不能根據(jù)簡(jiǎn)單的loss判斷收斂，以往都是要靠人耳朵去聽哪個(gè)epoch的效果最好，這樣就需要大量的人工成本。我們開發(fā)了音色相似度檢測(cè)模型和發(fā)音清晰度檢測(cè)模型，可以自動(dòng)判斷語(yǔ)音的微調(diào)結(jié)果哪個(gè)更好。

（注：這個(gè)報(bào)告是2023年12月做的，目前GPT-soVITS的路線比VITS更好，可以實(shí)現(xiàn)zero-shot語(yǔ)音克隆，不再需要收集大量高質(zhì)量語(yǔ)音做訓(xùn)練。開源模型可以合成的語(yǔ)音質(zhì)量終于逼近ElevenLabs的水平了。）

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

很多人認(rèn)為不需要自研語(yǔ)音合成模型，直接調(diào)用 ElevenLabs、OpenAI 或者 Google Cloud 的 API 就行了。

但是 ElevenLabs 的 API 非常貴，如果走零售定價(jià)，每 1K 字符需要 0.18 美金，按照一個(gè) token 4 個(gè)字符計(jì)算，相當(dāng)于 $0.72 / 1K tokens 了，這是比GPT-4Turbo都要貴24倍的。ElevenLabs 雖然效果好，但是如果 to C 產(chǎn)品大規(guī)模使用，這個(gè)價(jià)格是真的燒不起。

OpenAI 和 Google Cloud 的語(yǔ)音合成 API 不支持語(yǔ)音克隆，只有那幾個(gè)固定的聲音，這樣就沒(méi)法克隆名人語(yǔ)音了，只能做一個(gè)冷冰冰的機(jī)器人播報(bào)。但即使這樣，成本也是比 GPT-4 Turbo 貴 1 倍的，也就是成本的大頭不是花在大模型上，而是花在語(yǔ)音合成上。

大概也是因?yàn)檎Z(yǔ)音不好做，很多 to C 的產(chǎn)品都選擇只支持文字，但實(shí)時(shí)語(yǔ)音交互的用戶體驗(yàn)明顯是更好的。

雖然基于 VITS 很難實(shí)現(xiàn) ElevenLabs 級(jí)別質(zhì)量的語(yǔ)音，但基本可用是沒(méi)有問(wèn)題的。自己部署 VITS 的成本只要 $0.0005 / 1K 字符，是 OpenAI 和 Google Cloud TTS 價(jià)格的 1/30，ElevenLabs 價(jià)格的 1/360。這個(gè) $2 / 1M tokens 的語(yǔ)音合成成本也跟自己部署開源文本大模型的成本差不多，這樣文本和語(yǔ)音的成本就都降下來(lái)了。

因此如果真的打算把語(yǔ)音作為一個(gè)用戶體驗(yàn)的重大加分項(xiàng)，基于開源自研語(yǔ)音模型不僅是必要的，也是可行的。

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

我們知道圖片生成現(xiàn)在已經(jīng)比較成熟，視頻生成會(huì)是2024年一個(gè)非常重要的方向。視頻生成不僅僅是生成素材這么簡(jiǎn)單，更重要的是讓每個(gè)人都能輕松成為視頻內(nèi)容的創(chuàng)作者，更進(jìn)一步，讓每個(gè) AI 數(shù)字分身都有自己的形象，可以用視頻的方式來(lái)交流。

原華為天才少年 4萬(wàn)字演講

上一篇：外媒：“首次威脅”！拜登與內(nèi)塔尼亞胡通話并發(fā)出警告

下一篇：包頭市成立聯(lián)合調(diào)查組對(duì)售賣高價(jià)骨灰盒等問(wèn)題立行立改

久久伊人网站-久久伊人天堂视频网-久久伊人青青-久久伊人男人的天堂网站-在线免费公开视频-在线免费福利

原華為“天才少年”4萬(wàn)字演講風(fēng)靡國(guó)內(nèi)人工智能學(xué)術(shù)圈

相關(guān)內(nèi)容

熱門資訊