企業能否從移動互聯網、物聯網等網絡中不斷出現的數據源那里順利發現并拿到它需要的數據?
在Web頁面中增加一個簡單的意見按鈕,會不會讓讀者放棄填寫文字評論?同樣是給注冊用戶發送郵件通知,是純文字版本、還是圖形化版本獲得的回復率更高呢?
這是Facebook曾經面臨的無數個用戶體驗問題中的兩個。要回答這類問題,最好的辦法只有一個,就是實際測試一下。
Facebook的確這么做了。他們分別選取了兩組用戶設計了一次測試。結果證明,增加了意見按鈕后的評論增加了近5%;簡單的基于文本的電子郵件獲得了比圖形化更豐富的那些電子郵件高出三倍的響應率。
那么,這種測試方法的難點在哪里呢?超大量的社會化數據(social data)的收集和分析就是這其中最大的困難。
數據顯示,Facebook上現有5億用戶,超過一半的用戶每天都登錄。而Neilsen調查指出,Facebook用戶在該網站上消耗的時間,比接近它的其他6個網站上用戶所花的時間的總和還多。如此集中的用戶和用戶行為無疑產生巨量的數據回饋。Facebook的工程副總裁Mike Schroepfer指出,如今Facebook已經存儲了數十PB的未壓縮數據,每天的數據處理量也可以達到上百TB。
與過去那些從數據庫等商業軟件中抽取出的較為規整的數據不同,如今,在諸多社區網站中、各類網絡行為中產生的數據多種多樣。雅虎首席產品官Blake Irving指出,世界上只有5%的數據是結構化的,而非結構化數據一直保持極大的增長。事實上,為了更經濟高效地從客戶端的網絡行為中抓取數據、分析數據,Facebook、雅虎、淘寶以及像中國移動等主流企業都已經紛紛在云計算、數據挖掘等前沿技術中尋求解決方案。
大數據時代
時至今日,“Big data”(大數據)時代的來臨已經毋庸置疑,尤其是在電信、金融等行業,幾乎已經到了“數據就是業務本身”的地步。在這其中,還挾裹著一個更為重要的趨勢,即數據的社會化(Socialization of Data)。從博客論壇到游戲社區再到微博,從互聯網到移動互聯網再到物聯網,人類以及各類物理實體的實時聯網已經而且還將繼續產生難以估量的數據。對于時刻關注市場走向的企業來講,他們需要關注的數據顯然已經不僅限于企業內部數據庫中的業務數據,還要包括互聯網(以及未來的物聯網)上各類網絡活動所產生的相關數據記錄。
換句話說,如今,一個完整的企業數據生態系統有多個信息入口,應該包括互聯網、社交網絡、Email、呼叫中心等,其中還包括很多諸如圖片、音頻、視頻等非結構化數據。以往人們認為,把企業自有的運營數據進行深度分析后,自然會有所得。但在今天看來,這種做法的一大缺陷就是,數據不夠全面、及時。從理論上講,掌握的數據越全面,得出的結論就越趨向于合理。在上世紀即流傳開來的“啤酒與尿布”故事之后,企業只有構建一個容納了足夠多關鍵信息的“深水池”,才更有可能做出正確的決策。
這種趨勢已經讓很多相信數據之力量的企業做出改變。
2010年上半年,淘寶網開始推出數據魔方服務。從其服務頁面上可以看到,基于淘寶網上億用戶產生的交易原始數據,數據魔方服務不但可以提供傳統的熱銷品牌等各類排行,還可以對某項產品的交易趨勢、賣家和買家的信用情況、交易時段等多種細節進行統計分析。如果與沃爾瑪等傳統零售巨頭所能分析的數據相比,淘寶在賣家和買家的一些軟性資料和溝通細節上顯然掌握了更為豐富的信息。據透露,在近半年的時間內,淘寶上即有近2萬賣家開始通過數據魔方進行參考決策,100多天中總計數據調用260萬次。如今,淘寶網在國內外的數據分析領域中已經頗具影響力,其數據服務業務在其大淘寶戰略中的地位也將愈發重要。展望未來,互聯網、電信、金融等行業企業無疑在數據服務業務方面還有很大的開拓空間。
社會化數據的迅猛增長除了讓掌握了這些數據的企業順勢推出了相關的數據服務之外,也直接影響到了數據分析技術提供商們的發展戰略。
2010年10月,一直專注于商業智能技術的美國公司Teradata就宣布推出新的社交媒體平臺,專門進行與挖掘社會化數據相關的信息分享。在面向企業推出的產品上,則在其主打的數據倉庫產品之外,加入了關鍵的社會化數據的抓取和分析功能技術Hadoop。
“Teradata 的傳統優勢在于可以應對數據庫內的海量數據,Hadoop技術則可以處理來自互聯網的大規模數據,現在我們將原有產品和Hadoop技術整合到一起,可以更好地解決企業的數據處理問題。”Teradata公司首席技術官Stephen Brobst說。
對很多人來講,Hadoop這樣一個名詞可能還比較陌生,但實際上,從Yahoo的 Web搜索研究,到Facebook的數據分析,再到百度的搜索日志分析、淘寶的數據魔方服務,以及中移動推出了“大云”(BigCloud)系統,Hadoop的身影都已經到處閃現。簡單來講,社會化數據時代的企業需要像八爪魚一樣,能夠發現并拿到他需要的數據,而Hadoop技術的好處就是,不但可以方便地嵌入到各種實際應用中以實現全文搜索/索引,而且可以進行數據抓取。比如雅虎,通過應用這一技術,幾乎可以實時分析每一個頁面點擊并優化內容的排名,每7分鐘就能更新一次結果。
[page]
數據無盡頭
如果說社會化數據相對于企業內部的那些結構化數據來講算新數據的話,那么,類似的新數據在未來還將不斷增加。
因為移動互聯網、物聯網等新網絡的發展還在繼續,未來新的數據源將會不斷地出現,由此,像GPS數據、移動數據、傳感器收集的數據也將會不停地、大量的產生。
對于企業的整體數據生態系統來講,其實可以依據私有云和公有云的界定將其所有數據分成兩大部分。對于私有云,更多地體現為企業內部的傳統結構化數據,在未來的三到五年內,很多企業都將會大力發展其內部的云計算環境,像IBM、EMC等公司可以憑借虛擬化技術、硬件存儲功能為客戶提供相關的數據處理方案。
而對于更為廣闊的公有云數據,帶來的市場空間同樣很大。“隨著社會化數據、非結構數據、大數據的產生,企業需要將這些數據集中起來,加以分析利用,這也將會給Teradata這樣的公司帶來巨大的機會。”Teradata大中華區總裁辛兒倫(Aaron Hsin)在采訪中如此表示。
比如在能源領域,Teradata就與智能電表供應商Itron公司打造了一個軟件分析平臺,對使用的數據進行分析,解決了能源一旦生產出來無法儲存和節約的問題。憑借該分析平臺,公用事業企業能夠根據預測使用量和實際使用量對能源進行分配。比如,在住宅區域和制造業密布的區域,電力將采用不同的分配規劃。這一服務平臺不僅可讓能源企業獲得能源使用量、虛假信息和能源分配方面的數據,還能根據每個企業在每天特定時間的使用量進行定價和收費,并且更合理地配置能源。
此外,未來對地理空間數據的應用也是熱點之一。比如零售企業將地理空間數據與其網點、客戶數據相結合之后,即可針對其競爭對手推出更具競爭力的布局和促銷活動。而汽車保險行業則可以用感應器來收集數據。通過收集車輛行駛過程中的信息,與公路網的地理空間數據重疊起來,就可以對路況不好,經常發生事故的道路進行分析和防范。據辛兒倫介紹,目前,國內已經有部分客戶采用了Teradata的地理空間數據解決方案,主要分布在零售業、保險業和政府機關三個領域。
事實上,因為在數據挖掘技術和數據規模上的雙重門檻,使得這一行業并不能像過去賣出一臺機器或一份軟件許可那樣簡單。
以Teradata公司為例,雖然2010年經濟大勢不好,但是其業績增長卻非常顯著。2010年上半年,Teradata的營業收入增長了14%,是其在過去10年間幅度最大的一次增長。之所以如此,一部分原因是,當危機來臨時,公司試圖通過數據分析找出問題、得出對策的需求更為強烈,另一部分則需要注意到Teradata公司自身所發生的變化。
與其他IT供應商動輒擁有成千上萬甚至上百萬的客戶量不同,因為數據規模的前提限制,Teradata手中的客戶只有一千家左右。這一千家客戶大都集中在能夠產生巨量數據的電信、金融和互聯網行業。要在這一千多家客戶中開拓市場,提供持續的數據挖掘服務顯然比簡單的出售產品更適合作為一項長久的戰略。而在過去一年中,Teradata為了保證其顧問服務,其服務隊伍規模已經擴充了超過30%。
另外非常值得一提的是,中國市場在數據挖掘領域發展上的特殊性。與中國的基本國情相關,因為國內人口基數較大,引發的客戶數據量也更為龐大。如果我們能樂觀地看待這一問題的話,那么,不管是出于應對海量數據的需要,還是試圖從這些數據中挖到金子的沖動,由此迎來一個“數據創新”的機會也并非不可能。
相關閱讀