9月20日,人民網(wǎng)再度發(fā)力,以《警惕算法走向創(chuàng)新的反面》為題,指出今日頭條等智能信息平臺(tái)帶來的最大問題,可能還不是侵權(quán),而是走向創(chuàng)新的反面,甚至可能從根本上破壞創(chuàng)新的源動(dòng)力。
三篇文章,猶如重磅炸彈,重?fù)粢恢币曀惴橹苿俜▽毜慕袢疹^條。從今年7月人民日報(bào)發(fā)文《新聞莫被算法“綁架”》,到如今三評“算法”,不難看出官媒對今日頭條等信息客戶端的態(tài)度。
正視機(jī)器算法之不足,今日頭條回應(yīng)全文
在9月21日下午,今日頭條發(fā)了一封回應(yīng)信,大意就是:感謝人民網(wǎng),機(jī)器算法有不足,但會(huì)努力改進(jìn)。
以下為今日頭條回應(yīng)全文:
正視不足,勉力前行
在今天,算法分發(fā)已經(jīng)是包括搜索引擎、瀏覽器、資訊客戶端甚至音樂軟件在內(nèi)的互聯(lián)網(wǎng)產(chǎn)品的標(biāo)配。行業(yè)普遍認(rèn)為,中國的算法分發(fā)走在全世界前列。人民網(wǎng)對算法分發(fā)的三篇評論,關(guān)心技術(shù)潮流,切中行業(yè)脈搏,考慮深遠(yuǎn)。
感謝人民網(wǎng)在評論中把今日頭條作為案例來分析。作為全球最早依靠機(jī)器學(xué)習(xí)來做個(gè)性化分發(fā)的信息平臺(tái),今日頭條理解媒體的這些憂慮。
今日頭條的初衷,是希望通過人工智能技術(shù)促進(jìn)人與信息的交流。機(jī)器學(xué)習(xí)已經(jīng)在信息分發(fā)中表現(xiàn)出了它不可替代的作用,尤其是長尾內(nèi)容的分發(fā)和觸達(dá)。它和信息傳播介質(zhì)的升級一起,降低了人們獲取信息的知識(shí)門檻,讓“知識(shí)普惠”從口號(hào)變成了現(xiàn)實(shí)。
機(jī)器學(xué)習(xí)和人工編輯,在現(xiàn)階段,是相輔相成的。未來也是如此。再聰明的人工智能,也只是一個(gè)需要不斷升級的工具,而人是不可替代的。這是一個(gè)不斷磨合和優(yōu)化的過程。這也是人民網(wǎng)三篇評論的價(jià)值所在。
我們正視機(jī)器學(xué)習(xí)技術(shù)目前整體發(fā)展的不足,勉力改進(jìn)。今日頭條,是伴隨著機(jī)器學(xué)習(xí)技術(shù)在信息分發(fā)領(lǐng)域的應(yīng)用而發(fā)展起來的,還在成長,還需要經(jīng)歷挑戰(zhàn)。
多謝社會(huì)各界的關(guān)注和支持。作為行業(yè)領(lǐng)導(dǎo)者,今日頭條有不可推卸的義務(wù),讓基于機(jī)器學(xué)習(xí)的信息分發(fā),給社會(huì)創(chuàng)造更大的價(jià)值。
專家觀點(diǎn):算法的局限與改進(jìn)
中國人民大學(xué)新聞學(xué)院教授、博士生導(dǎo)師宋建武最近撰文就此分析。其觀點(diǎn)如下:
近日,人民網(wǎng)連續(xù)刊載了三篇評論,對個(gè)性化新聞資訊推送服務(wù)中出現(xiàn)的亂象,做了切中時(shí)弊的分析。這三篇文章,引導(dǎo)我們對算法技術(shù)的本質(zhì)特征,及其對傳播方式的影響,做出冷靜而深入的思考。
通過研究以今日頭條為代表的“個(gè)性化資訊分發(fā)平臺(tái)”,我們得出了一些關(guān)于現(xiàn)有算法的局限及其改進(jìn)方法的認(rèn)識(shí)和判斷。
其一,內(nèi)容雜蕪。資訊平臺(tái)為最大規(guī)模地占有內(nèi)容資源,在發(fā)展的特定階段,往往不加甄別地?cái)U(kuò)充所謂“自媒體”的內(nèi)容,以致于內(nèi)容數(shù)據(jù)庫中魚目混珠,虛假和低俗信息乘虛而入。平臺(tái)上大量低品質(zhì)內(nèi)容的供給,大規(guī)模地“創(chuàng)造”著對低俗內(nèi)容的需求。而資訊平臺(tái)對此缺少管理手段,有些平臺(tái)甚至在主觀上還企圖借此提高“流量”和“用戶數(shù)”。
其二,算法單一。目前的各類“個(gè)性化資訊分發(fā)平臺(tái)”,基本上都是根據(jù)用戶信息點(diǎn)擊的歷史數(shù)據(jù)判斷其信息偏好,據(jù)此推送更多同類內(nèi)容。點(diǎn)擊量高的內(nèi)容和內(nèi)容類別會(huì)作為初始設(shè)定,被推給更多用戶??紤]到用戶使用移動(dòng)終端的場景近乎個(gè)人獨(dú)處,具有私密化特征,此種狀態(tài)下表現(xiàn)出來的信息需求,常常會(huì)對獵奇和低俗內(nèi)容較為敏感,這類低質(zhì)量信息往往點(diǎn)擊量較高。
其三,取值偏差。資訊分發(fā)平臺(tái)把對特定資訊的個(gè)人點(diǎn)擊量和整體點(diǎn)擊量(即所謂熱度)作為算法的主要甚至是唯一取值標(biāo)準(zhǔn),使之成為機(jī)器通過算法進(jìn)行推送的依據(jù)。而客觀全面地分析“熱度”,我們發(fā)現(xiàn),這個(gè)指標(biāo)更多地反映了用戶對于特定信息感興趣的程度,可以映射新聞信息的“趣味性”,但無法反映特定信息對于用戶個(gè)人和社會(huì)的選擇和決策行為的真正價(jià)值,即新聞信息的“重要性”。反映在平臺(tái)運(yùn)營方的觀念上,就是他們誤把用戶對特定信息的“關(guān)注度”,當(dāng)成了“重要性”。殊不知,從新聞信息本身的特性看,這種“關(guān)注度”,在移動(dòng)終端上,往往體現(xiàn)的是用戶對特定信息的“興趣度”,而不是信息本身的“重要性”。
盡管基于海量信息聚合并以算法驅(qū)動(dòng)精準(zhǔn)分發(fā)的個(gè)性化資訊服務(wù)存在這些局限,而且商業(yè)性質(zhì)的資訊平臺(tái)還容易受到逐利動(dòng)機(jī)的影響,從而加劇這些問題。但不可否認(rèn)的是,算法技術(shù)推動(dòng)了信息傳播方式的顯著進(jìn)步。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)新聞客戶端成為公眾接收新聞信息的主要渠道。移動(dòng)終端的個(gè)人化特點(diǎn)增強(qiáng)了個(gè)性化的信息需求,其便攜性促進(jìn)了場景化的信息使用,而信息交互讓用戶成為傳播主體。同時(shí),從PC互聯(lián)網(wǎng)時(shí)代開始,內(nèi)容生產(chǎn)和傳播的門檻降低,社交媒體的興盛使傳播環(huán)境進(jìn)一步開放,社會(huì)普遍信息化大大擴(kuò)展了公共信息的規(guī)模。這些因素交織在一起,構(gòu)成了移動(dòng)傳播的特殊矛盾——如何實(shí)現(xiàn)海量信息資源與個(gè)性化信息需求的高效匹配。我們認(rèn)為,對于這一問題的解決,基于大數(shù)據(jù)并運(yùn)用算法而形成的人工智能是最有效的工具。算法技術(shù)對傳播方式進(jìn)步的貢獻(xiàn)在于,它能夠以較高的效率和較低的成本,在社會(huì)普遍信息化所產(chǎn)生的海量信息供給中,為個(gè)性化需求尋得精準(zhǔn)匹配結(jié)果,這是人工智能在信息傳播領(lǐng)域的應(yīng)用,是技術(shù)進(jìn)步的體現(xiàn)。
正如鄧小平同志倡導(dǎo)的,科學(xué)技術(shù)是第一生產(chǎn)力。我們不能站在技術(shù)進(jìn)步的對立面,而應(yīng)該更加積極主動(dòng)地?fù)肀Ъ夹g(shù)進(jìn)步,在實(shí)踐中完善技術(shù),利用技術(shù)獲得更大的進(jìn)步。我們要看到,創(chuàng)新技術(shù)的應(yīng)用和推廣,通常需要經(jīng)歷漫長的適應(yīng)調(diào)整期,探索過程中的困難和不足不應(yīng)成為否認(rèn)或質(zhì)疑技術(shù)進(jìn)步總體方向的理由。
具體而言,要想恰當(dāng)解決在當(dāng)前算法應(yīng)用中出現(xiàn)的問題,不僅需要改進(jìn)算法,還需要完善甄別信息真?zhèn)魏蛢?yōu)劣的手段,以及豐富信息價(jià)值的評判維度。
如何甄別信息?
算法的核心優(yōu)勢在于對海量信息與個(gè)性需求的精準(zhǔn)匹配,而高效匹配的前提是對信息的真?zhèn)魏蛢?yōu)劣的準(zhǔn)確甄別。
對信息真?zhèn)蔚蔫b別,國外的臉譜和谷歌、國內(nèi)的微信和微博大多采用第三方核查的方式,然而,這些方式都屬于事后應(yīng)對,未能形成預(yù)警機(jī)制,難以提前防范虛假信息的發(fā)布和傳播。隨著各類傳播平臺(tái)的用戶規(guī)模不斷擴(kuò)大,虛假信息一旦被廣泛傳播,信息源的資質(zhì)審查和事后懲罰都難以補(bǔ)償負(fù)面輿情效果。因此,傳播之前的攔截具有重要意義。目前互聯(lián)網(wǎng)信息傳播平臺(tái)普遍采用的辦法是借助技術(shù)手段進(jìn)行事先核查。包括今日頭條在內(nèi)的一些網(wǎng)站以“人工+機(jī)器”的模式構(gòu)建防火墻,對敏感詞、“標(biāo)題黨”和虛假信息進(jìn)行攔截,也借助人工智能技術(shù),模仿人腦機(jī)制,對低俗圖片進(jìn)行攔截。目前,今日頭條等大型資訊類平臺(tái)都建立了儲(chǔ)量超過5000條的謠言數(shù)據(jù)庫用于篩查虛假信息,但面對數(shù)量巨大且層出不窮的虛假信息,與其建立謠言數(shù)據(jù)庫,不如建立常識(shí)數(shù)據(jù)庫,因?yàn)殄e(cuò)誤可以花樣百出,而常識(shí)則是相對穩(wěn)定的。
對于信息優(yōu)劣的鑒別,與評判標(biāo)準(zhǔn)有關(guān),更與內(nèi)容數(shù)據(jù)庫的來源結(jié)構(gòu)有關(guān)。資訊平臺(tái)應(yīng)當(dāng)建立其甄別體系,對信息源進(jìn)行有效甄別。目前互聯(lián)網(wǎng)資訊平臺(tái)已廣泛采取對優(yōu)質(zhì)自媒體內(nèi)容的獎(jiǎng)勵(lì)機(jī)制,并開始聯(lián)手一些深耕特定內(nèi)容領(lǐng)域多年的傳統(tǒng)媒體,以加大優(yōu)質(zhì)內(nèi)容的供給。
如何改進(jìn)算法?
既然人工智能在海量信息和個(gè)性需求的精準(zhǔn)匹配上具有明顯優(yōu)勢,那么匹配的具體規(guī)則即算法應(yīng)該如何制定,才能既滿足個(gè)性需求又促進(jìn)優(yōu)質(zhì)信息傳播?實(shí)際上,這個(gè)問題含有一個(gè)深層矛盾,那就是個(gè)人與社會(huì)對信息的價(jià)值判斷在多大程度上能夠達(dá)成一致?假設(shè)這個(gè)一致可以達(dá)成,又該如何把個(gè)人和社會(huì)對信息的價(jià)值判斷體現(xiàn)在算法規(guī)則中?
算法規(guī)則體現(xiàn)著新聞信息生產(chǎn)和分發(fā)機(jī)構(gòu)的價(jià)值觀。商業(yè)性的大型資訊分發(fā)平臺(tái)以追求商業(yè)利益為經(jīng)營目的,在算法設(shè)計(jì)中往往傾向于迎合用戶需求,以獲得盡可能多的點(diǎn)擊量。即便如此,作為一個(gè)公共信息分發(fā)平臺(tái),其基本的社會(huì)責(zé)任也要求它,不能偏廢“重要性”這一最本質(zhì)的新聞價(jià)值維度。對于正打算采用算法技術(shù),落實(shí)移動(dòng)優(yōu)先戰(zhàn)略,以提升傳播力和影響力的主流媒體來說,他們的社會(huì)功能和歷史使命決定了,他們不能照搬商業(yè)平臺(tái)以點(diǎn)擊量為主導(dǎo)的算法規(guī)則,而必須更全面地考慮用戶個(gè)人更本質(zhì)的信息需求,尤其是個(gè)人在社會(huì)化過程中用于建立其個(gè)人與社會(huì)的一致性的信息需求,以有效地幫助其降低選擇和決策的“不確定性”。因此,主流媒體的算法規(guī)則設(shè)計(jì)應(yīng)該在吸取現(xiàn)有算法運(yùn)用的經(jīng)驗(yàn)和教訓(xùn)的基礎(chǔ)上,著力于體現(xiàn)新聞的“重要性”。
如何豐富取值?
目前資訊分發(fā)平臺(tái)普遍使用的信息價(jià)值評判標(biāo)準(zhǔn)是點(diǎn)擊量,點(diǎn)擊量越大的信息,傳播范圍越廣。對于新聞信息而言,這樣的取值雖然可以使新聞供給趨近于所謂“公眾興趣的最大公約數(shù)”,但對于使用移動(dòng)終端的用戶而言,受興趣牽引的點(diǎn)擊會(huì)偏向于娛樂性和獵奇性較強(qiáng)的信息,而主要基于點(diǎn)擊量取值的算法規(guī)則,又會(huì)把這類信息推送到更大范圍,在商業(yè)資訊平臺(tái)上色情低俗信息的大量傳播就是典型例子。由此可見,信息價(jià)值評判的取值方法對基于算法的個(gè)性化資訊服務(wù)影響重大。目前以點(diǎn)擊量為主的取值方式,維度單一,導(dǎo)致了推送的內(nèi)容過于娛樂化,而缺乏對信息重要性的真正體現(xiàn)。
在新聞傳播學(xué)科內(nèi),新聞價(jià)值的內(nèi)涵有普遍接受的定性描述——接近性、時(shí)效性、顯著性、趣味性和重要性。前兩個(gè)價(jià)值要素分別指的是新聞事件發(fā)生的地點(diǎn)和時(shí)間,顯著性指的是新聞事件涉及的重要人物和組織。這三個(gè)要素實(shí)際上都是場景性指標(biāo),具有量化特定價(jià)值判斷的作用。在我們的實(shí)際考察中發(fā)現(xiàn),發(fā)生在移動(dòng)終端上的點(diǎn)擊量主要體現(xiàn)了趣味性要素。最后,重要性要素是新聞價(jià)值中最難以通過量化標(biāo)準(zhǔn)來體現(xiàn)的,而它恰恰是新聞信息價(jià)值判斷的核心,它既需要在個(gè)人價(jià)值判斷與社會(huì)整體價(jià)值判斷的統(tǒng)一中尋找,還體現(xiàn)著淺表的事件描述與深層的數(shù)據(jù)分析的區(qū)別,通常也反映著業(yè)余的信息貢獻(xiàn)者與專業(yè)的內(nèi)容生產(chǎn)者的差異。目前的實(shí)踐尚未探索出恰當(dāng)體現(xiàn)新聞“重要性”的取值方法及與之匹配的算法規(guī)則,對于這一問題的理論研究也剛剛起步。
從操作層面來看,主流媒體生產(chǎn)的內(nèi)容通常有專業(yè)水平的保障,也自然趨向于與社會(huì)主流價(jià)值觀相一致;而自媒體生產(chǎn)的內(nèi)容,則受到成本投入和運(yùn)營水平的限制,也難免因逐利動(dòng)機(jī)而標(biāo)新立異、嘩眾取寵。因此,在更為細(xì)致的算法規(guī)則研發(fā)成功之前,按照信源類型對信息價(jià)值賦值,也許是具有較高可行性的策略。
來源:康璐瑋,《人民日報(bào)三批今日頭條,推薦算法“此路不通”,資訊平臺(tái)未來路在何方?》,文化產(chǎn)業(yè)新聞;宋建武,《宋建武:個(gè)性化新聞資訊推送服務(wù)當(dāng)前算法的局限及其改進(jìn)》,人民網(wǎng)傳媒。
文編:李賽可、張紓
美編:陳咨霖