華海濤:大數據的產生基于結構化數據
2015-03-27 17:15:00 來源:央廣網
央廣網北京3月27日消息 3月27日,由中央人民廣播電臺新媒體宣傳中心、河北大學新聞傳播學院、中國社會科學院世界傳媒研究中心、中國科技新聞學會網絡媒體專業委員會共同主辦的“首屆大數據時代創新與媒體變革研討會”在京舉行,本次研討會以“時代創新 媒介變革”為主題,圍繞大數據時代全球網絡文化發展趨勢,探討全球媒介創新發展未來。網絡文化建設和管理部門、科研院校、國家核心學術期刊負責人、專家、學者共200人出席會議。
味道網CEO華海濤在《大數據時代的中國青年媒體人成長論壇》中談到為什么會有“大數據”,他認為,是因為現在有很多每天產生出來的結構化數據都是有用的,存在在郵件附件里、數據庫里面。它們之間有相互關系,但沒辦法用傳統的關系數據庫的方法進行查詢分析。之前在2000年前后,其實已經有這種概念,就是數據倉庫和數據挖掘,非常接近于現在大家講的大數據,所以說很多人就會在這個上面進行混淆。
大數據不是一個特定的產品,是分布式的文件系統,基于這樣的文件系統建模,然后才有可能在短時間內對大量的數據進行分析。
以下為文字實錄:
從我個人的角度闡述一下我對大數據的看法。首先作為技術人員來講我認為大數據首先要看本質,為什么出來這樣一個名詞,跟他比較接近的在2000年那個時候大家講寬帶,什么叫寬帶,帶寬到底多少是寬帶,現在發展到了10兆瓦、20兆,剛開始的時候512K那個時候也叫寬帶,所以這個事情是不準確的。大數據到底多大才算大,是不是一個GB的數據就不算大,其實我可以告訴大家本質上不是這個樣子。
為什么會有大數據這樣一個名詞。是因為就是說現在我們有很多每天產生出來的數據也不過結構化,當然里面也有一些結構化的數據,這些數據其實都是有用的,可能有些是在郵件、附件里面,有的是在數據庫里面。他們之間又有相互關系沒有辦法用傳統的關系數據庫的方法進行查詢分析。之前在2000年前后其實已經有這種概念,就是數據倉庫和數據挖掘,非常接近于現在大家講的大數據,所以說很多人就會在這個上面進行混淆。
比如說像尿布跟啤酒的例子,好像是這樣,這個例子我也是聽了十幾年了。大數據更多的可能是商家或者國際巨頭用于一波又一波的創造新的IT增長點,然后可能很多人也不自覺的就卷到這個里面去了,所以我說我們普通民眾是要認清楚這個問題。遇到了什么問題現在我們開始提這個大數據,剛開始講了查詢分析,這里面用傳統的模型或者是工具研發解決。它不是一個特定的產品,是分布式的文件系統,基于這樣一個文件系統上面我們可能主要是建模,做了這樣一些事情,然后你才有可能去在一個相對短的時間內對大量的數據進行分析。
我先說一下大數據為什么現在我們很多人感覺像見不到它,見到部分到就對了,因為手里根本就沒有大數據,大數據在誰的手里,其實就是數據生產者,我們從源頭算起,每個人在文本框里輸入一個詞,那這個詞就是精確的,服務器是可以記錄下來的。那我們上億的人甚至幾十億的人在搜索引擎里輸入這個數據是非常精準的計算了像百度、谷歌這個數據當中去。包括語音、包括視頻然后像電子商務其實最精準的是電子商務。
我經常跟同事或者朋友在一起聊天的時候就說,其實如果是我們講阿里、京東他們所掌握的中國的消費數據可能比國家統計局的還要準。因為什么呢?因為里面的每一筆訂單是誰的,它精確到分,每一分都不會差的。它能夠明顯的分析出來這里面有男性用戶、女性用戶,在什么年齡段所以這個是很精確的,然后還有像微博、微信,微信這個事情最新的版本剛剛開放微信的搜索,之前也沒有開放搜索,數據在哪里?先存著,現在存儲很便宜,他可以搞到這樣的數據放在那里,什么時候想分析就可以去分析。所以說這個事情我們老百姓能感覺到跟我們好像沒什么關系。但是多少有一點關系,但那個關系什么,我們可以去用,但是用的成本有多少這個不知道。
每個人都想去建自己大數據的中心,或者在技術上用了大數據的方法。比如說我們去年上線的味道網是一個農產品電子商務網站,那這個電子商務網站跟其他的很多電子商務網站有共性的地方,那就是我也需要廣告,剛才褚總講的很好,叫整合了各種廣告資源同時做時實的數據分析,是我們電子商務網站具體的一個應用點。然后還有一點我們自有數據的積累,積累到一定程度比如想象一下每天如果能產生一萬訂單,這一萬訂單量每個人都會有一個評價,如果在評價上再有一個互評的話,這個數據量也是蠻嚇人的,基本上意味著可能做一個普通的關系型數據庫這樣一個查詢,一分鐘或者10分鐘,這樣用戶是等不了的。可能我們要犧牲掉一些精確性,然后用一些大數據的方法來把它搞定。
另外我在從業過程中還遇到一個例子,就是說有一個是跟藝術品定價有關系的,當時設計了29個緯度包括拍賣行的價格,包括大家的評價、評論、以及以往所有人的評價,這些東西通通弄到里面去,有不同的權重也不一定是線性的,把這些東西都弄到里面去去做一個應用點在哪里?就是說拿它去做一個藝術品的基礎價格的一個估價。因為現在大家都知道藝術品價格是很混亂的,賣多少錢都有,那到底讓消費者知道這個東西值多少錢,所以他們想了這個辦法。
但是這里面一個最大的問題就是剛才上午也有嘉賓分享到了,這里面關于數據的準確性的問題。我們是不能相信的,這里面數據你不知道是哪一條不準確,所以我們認為整體就是不準確的,這里面不能單獨的數據清洗,那你憑什么清洗掉某一條數據?它也許是準的也許是不準的,這里面是應用上一個很大的問題。
對精準數據來講其實我覺得是現在一個最大的應用點。剛才我就從技術的角度說了一下大數據的這些事情。然后總結一下吧:現在我覺得是一個大數據的,我們趕上了這樣一個時代確實是,未來可能會像王立新教授講的非常精采,未來可能會達到那樣一個理想的狀態,一個完美的狀態,就是說我們可以把中間的不對稱造成的摩擦的成本降到最低,但是那個時代可能還比較遙遠,目前我們能做到的事情就是認清形勢,想清楚這個大數據這樣一個概念或者一個技術對我們到底會有些什么樣實際的應用,不要迷茫就好,謝謝大家!
編輯:王天怡
關鍵詞:大數據;研討會
2015-03-27 17:29:00
2015-03-27 17:25:00
2015-03-27 17:06:00
參與討論
我想說
央廣網官方微信
手機央廣網