數據庫不能承受之重 大數據落地人才最緊缺

2012/09/11 07:47      鄒大斌

  成立于2008年的Vpon威朋是一個移動廣告公司,其主營業務是接受廣告主委托在其合作方推出的移動App上發布廣告。上個月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統廣告分析系統,這是一套建立在Hadoop平臺上的大數據挖掘、分析及處理系統。這套系統最大作用就是能精確地統計和分析用戶點擊移動應用的時間、地點和各種偏好,從而幫助廣告主做出更有效的廣告投放決策。成立于2009年的北京百分點信息科技有限公司(以下稱百分點)也在做與Vpon威朋類似的事情。百分點推出了一種名為個性化搜索引擎的工具,電子商務網站可以利用它來分析訪客的點擊行為,找出訪客的偏好、進行產品推薦。同樣,這個搜索引擎也是基于Hadoop開發。

  在互聯網領域,像Vpon威朋、百分點這樣利用Hadoop等利用大數據相關技術進行訪客點擊行為分析來開展業務的公司越來越多,其中有一大批對新興技術敏感的初創公司,同時也不乏像Google、Facebook這樣著名的互聯網公司。

  事實上,“大數據”這股發端于互聯網企業的數據分析熱潮如今已經超出了互聯網領域,部分敢于“嘗鮮”的傳統企業已經開始部署大數據相關技術。根據IDC最新發布的全球大數據市場預測,大數據將從2010年的32億美元增長至2015年的169億美元,年復合增長率達到40%。對市場前景的良好預期吸引投資者們也紛紛投身其中,目前對于大數據的風投資金已超過5億美元:去年年底Hadoop版本的主要發布者Cloudera獲得4000萬美元投資;Cloudera的競爭對手,另一個Hadoop版本發布者——MapR獲得了2500萬美元的投資;NoSQL數據庫廠商10Gen(MongoDB的供應商)和DataStax(Cassandra的供應商)分別獲得了3200萬美元和1100萬美元的融資;今年4月剛剛在納斯達克進行IPO,融資2.3億美元……這個名單可以列得很長。

  很顯然,在市場研究機構和投資者看來,大數據市場現在是如日中天,其熱度甚至大有蓋過云計算之勢。與此同時,“大數據是大忽悠、大謊言”的說法也不絕于耳。紛紛擾擾的市場宣傳中,我們究竟該如何認識大數據,大數據到底是大機遇還是大騙局?

  迎來大數據時代

  大數據與數據的爆炸性增長有著密切關系。根據IDC的研究,2010年底全球新生成的數據量已經達到120萬PB(或1.2 ZB),這些數據如果使用光盤存儲,摞起來可以從地球到月球一個來回(從地球到月球大約24萬英里)。IDC預計,到2020年需要存儲的數據量將達到35萬億GB,是2010年數據存儲量的42倍。

  今天的中國是數據生產的大國。還是IDC提供的數據,截止到2012年6月,中國有近3.9億的移動客戶、5.3億的互聯網客戶。在一個比較典型的智能城市中,每個季度就可能產生出200PB的視頻數據。

  應該說,我們面對的挑戰不只是海量數據,還包括越來越繁多的數據格式,特別是非結構化和半結構數據量遠遠超過傳統的結構化數據。研究表明,如今新增數據中80%以上是諸如日志、圖片、視頻、電子郵件等非結構化或半結構化的數據。這些數據都不能(或者不適合)用傳統方法處理,需要有新的思考、新的作為,這就是大數據技術。

  對于什么是大數據至今并沒有明確而且一致的定義。目前關于大數據有兩個不同的理解,一個是認為它是一系列的技術,通過這些技術對大量的結構化和非結構化數據進行處理,從而獲得各種分析和預測結果;另一個,也是更多的人理解是,簡單地稱海量的數據集稱為大數據,本文采用后一種認識。

  雖然缺乏對大數據明確的定義,但對大數據三個“V”基本特征卻是頗有共識,即海量的數據規模(volume)、快速的數據流轉(velocity)、多樣的數據類型(variety)。這其中,“海量”是大數據的引發人們廣泛關注的前提,而快速和復雜的數據類型則是引發人們廣泛關注的關鍵。

  大數據從何而來

  談到大數據,不得不談到移動設備。因為我們面對的大數據除了來自企業應用、運營的數據以及供應鏈、供應商產生各種各樣的數據,還有很大一部分來自社交媒體以及移動應用,而移動智能設備就是背后最大的推手之一。

  眾所周知,智能移動設備的普及給社會帶來諸多變化。其中之一就是人們可以在任何時間、任何地點獲取信息,能夠實時通信、實時協作、發布社交內容。這就使得數據的生產方式發生了變化:過去,我們只是在工作時產生數據,而今我們幾乎是每時每刻都在生產數據;過去,數據都是交易型,典型的表現形式為一條條交易記錄,這是傳統數據庫所擅長的,而如今,數據源眾多,而且很多數據不再是由人而是由機器產生的,各種各樣的RFID、傳感器都在生成數據。另外,即使是人為產生的,如社交網絡、微博,數據的形式和過去的形式也不一樣,主要表現為非結構化。

  “數據量的增加已經遠遠超出預期,而且企業目前面臨的還是一個更加復雜的數據環境。在這樣一個環境中,企業要獲得傳統財務或者財務以外信息分析能力,需要新的方法。這就是大數據熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數據論壇演講時表示。

  面對如此海量、復雜的數據需要存儲、需要管理更需要分析,這就引發了人們對大數據的極大關注,而VMware全球高級副總裁范承工看來,事情變復雜的還有另外兩個因素。“之所以有今天的大數據話題,除了數據產生更還包括云應用的普及以及數據的使用者發生了變化。”

  范承工在VMware內部領導一個數據部門從事相關產品的開發,包括支持Hadoop在虛擬化環境中的快速部署插件等。范承工解釋說,云應用的普及改變了過去單一的數據位于數據中心的形式,越來越多的數據被保存在企業防火墻外的公有云中,使得數據整合成為難題;同時,數據使用者也從最初主要面向管理者、高級經理到逐漸普及到一般業務人員,這就要求獲得分析結果的方式更簡單、更靈活。

相關閱讀

国产私拍大尺度在线视频_中文字幕无线码一区二区_精品中文字幕无码_91伊人久久大香线蕉