咨詢電話:0317-7920678
最新公告
最新公告
當前位置:主頁 > 新聞資訊 > 最新公告 >

AI在内容分發上的絆腳石

時間:2019-08-27 08:07 來源:未知 作者:admin

自從互聯網商業化發展以來,不論是新聞客戶端、視頻網站或是電商平台……所有的平台,都是把自己默認為一個優秀的飼養員,它按照自己的想法,把内容(飼料)Push(喂)給用戶。

 

這些飼養員都是受過訓練的專業人士,行話叫做---由網站編輯為用戶設置議程,按照大多數用戶的口味挑選内容。

 

後來編輯實在忙不過來,采用機器幫忙---最簡單的機器方式則是“熱門推薦”,比如按照點擊量或其它數據來做排序。

 

飼養員模式最大的問題是不知道食客胃口如何,這會導緻兩個顯著的後果:一是食客不滿意,用戶個性化需求不能得到滿足;二是自身資源浪費,大量長尾資源長期得不到曝光,增加沉沒成本。

 

有人發現了機器的好處。機器可以是根據用戶特征來推薦内容。正如一個高明的廚子可以根據每一個食客的口味提供飯菜,如果機器足夠聰明,在一定程度上可以解決所有用戶的個性化需求。這豈不是内容産業的C2M?

 

準确的說,這是内容分發的C2M,它以單個用戶為對象進行溝通,跳出了大衆傳播/分衆傳播窠臼,是不是足以革了所有的搜索引擎和門戶網站的命?

 

這種智能化的内容C2M有深刻的時代背景。今天,你已經站在時代邊緣,眼睜睜的看着AI技術點燃了IOT的引線,接下來你将發現自己無可拒絕的進入下一個信息核爆的時代:信息終端爆炸、信息規模爆炸、信息平台爆炸……

 

在信息高速公路上,你開過的車,你走過的路,全都變了規則,你所熟悉的一切的基于飼養員模式的知識框架都面臨颠覆。

 

在這個時代,飼養員模式已經失靈了,聰明的機器将成為最大的變量。

 

第一個出現的場景是人類生産内容,機器分發内容。

 

下一個出現的場景是機器生産内容,機器分發内容。

 

内容産業面臨C2M革命,行不行?

 

“當然不行,機器很蠢。”如果你這樣想,那麼很遺憾,你注定是看不到明天的太陽了。

 

“當然行。”如果你這麼想,那麼祝賀你掉進坑裡了。

 

真實的情況,你可能意想不到。

 

一、内容C2M之路本質是走向個體化溝通

 

作為一個獨立的研究方向,推薦系統的源頭可以追溯到90年代初的協同過濾算法,中期的代表則是傳統的機器學習算法,比如Netflix大賽所推動的隐語義模型,現在則是更加複雜的深度學習模型。

 

近些年,深度學習突飛猛進,使得機器推薦變成了整個互聯網的太陽。在新技術的推動下,個性化溝通也變得更加可行,而且越來越接近單用戶溝通。

 

(一)協同過濾蹒跚起步

 

按照百科詞條解釋,協同過濾是利用用戶群體的喜好來為你推薦感興趣的信息,這些用戶要麼興趣相投、要麼具有共同經驗,然後網站結合你的反饋(如評分),進行過濾分析,進而幫助别人篩選信息。

 

當然,用戶喜好不一定局限于特别感興趣的信息,特别不感興趣信息的紀錄也相當重要。協同過濾表現出了出色的效果,開始在互聯網行業稱王稱霸。

 

起先,協同過濾應用于郵件過濾。

 

1992年,施樂公司的科學家提出了Tapestry系統。這是最早應用協同過濾系統的設計,主要是解決Xerox公司在Palo Alto的研究中心資訊過載的問題。這個研究中心的員工每天會收到非常多的電子郵件卻無從篩選分類,于是研究中心便發展這項實驗性的郵件系統來幫助員工解決這項問題。

 

接着,協同過濾思路開始應用于内容推薦。

 

1994年,美國Minnesota的GroupLens項目組創辦了一個新聞篩選系統,這個系統可以幫助新聞的閱聽者過濾其感興趣的新聞内容,閱聽者看過内容後給一個評比的分數,系統會将分數記錄起來以備未來參考之用,假設前提是閱聽者以前感興趣的東西在未來也會有興趣閱聽,若閱聽者不願揭露自己的身分也可以匿名進行評分。作為最老牌的内容推薦研究團隊,GroupLens于1997年創建了電影推薦系統MovieLens,還有性質相近的音樂推薦系統Ringo,以及影音推薦系統Video Recommender等等。

 

後來,出現了另一個裡程碑——電子商務推薦系統。

 

1998年,亞馬遜的林登和他的同事申請的基于物品的協同過濾(item-to-item)技術專利,是亞馬遜早期使用的經典算法,一度引爆流行。

 

協同過濾算不算人工智能?從技術的角度來看,它也屬于AI範疇。但必須指出的是協同過濾算法比較弱智,無論是基于用戶的協同過濾,還是基于物品的協同過濾,推薦效果總是差強人意。

 

怎樣通過一個成體系的方法論來引導推薦系統的不斷優化?如何才能把複雜的現實因素糅合到推薦結果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,後來,終于有人發現了更加靈活的思路。

 

(二)傳統機器學習開始加速

 

2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線影片租賃網站,舉辦大賽的目的旨在解決電影評分預測問題的機器學習和數據挖掘問題。主辦方為此下了血本,宣稱對于那些能夠将Netflix的推薦系統Cinematch的準确率提升10%的個人或團隊,獎勵100萬美元!

 

Netflix在自家blog上披露了許多龐大的數據,舉例如下:

 

  • 我們有幾十億的用戶評分數據,并且以每天幾百萬的規模在增長。

  • 我們的系統每天産生幾百萬的播放點擊,并且包含很多特征,例如:播放時長、播放時間點和設備類型。

  • 我們的用戶每天将幾百萬部視頻添加到他們的播放列表。

 

顯然,在這些海量數據面前,我們已經不能靠由純人工或者小型系統建立起來的分類标準對整個平台用戶喜好進行标準化。

 

比賽開始一年後,Korbell的團隊以8.43%的提升赢得了第一個階段獎。他們付出了超過2000個小時的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(RBM)。

 

矩陣分解作為協同過濾的補充,核心是将一個非常稀疏的用戶評分矩陣R分解為兩個矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數據構建這些向量,使用它們來預測未知的項。該算法在有效提高計算精度的同時,還能夠加入各種建模元素,使更多元化的信息融合進來,更好地利用大量數據。

 

然而矩陣分解也有不足。不足之處在于,矩陣分解和協同過濾算法一樣,都屬于監督學習範疇,粗糙且簡單,适用于小型系統。擺在網絡巨頭們面前的問題是,如果需要建立一個大型推薦系統,協同過濾和矩陣分解則會花費較長的時間。怎麼辦?

 

于是,一些攻城獅将眼光轉移到無監督學習中。無監督學習中的聚類算法的本質是識别用戶組,并對這個組内的用戶推薦相同的内容。當我們擁有足夠的數據,最好使用聚類作為第一步,來縮減協同過濾算法中相關鄰居的選擇範圍。

 

隐語義模型運用了聚類分析方法,其一大優勢是既可以做評分預測,又可以同時對文本内容建模,使得通過内容來進行推薦的效果得到較大提升。
/uploads/soft/190827/1_0806306551.doc