大數據未必能改變社交,但它了解社交
  《紐約時報》曾發(fā)表過一篇叫《大數據做不到什么》的文章,記者David Brooks認為大數據首先不擅長的是社交,因為數據側重社會交往的“量”而非“質”。
  但是,大數據在社交媒體上的應用程度已經今非昔比了。就近舉個例子,這次世界杯上IBM和騰訊進行了一次合作,由IBM在社交媒體平臺上挖掘信息,然后由騰訊策劃報道。
  球迷們每天發(fā)那么多消息,而且大多是文字信息而非數字,他們是怎么挖掘和分析的呢?壹讀君摘幾個他們的技術讓大家感受一下。
  首先是“命名實體識別”,不管球迷是用手機還是電腦發(fā)消息,都會有一些文字沒有標點符號,這個技術可以把人名啦、球隊名等等先識別出來,來辨別不同短語的不同含義。
  然后是“話題檢測”,也就是識別球迷們討論的是什么話題。對于球迷來說,這個技術的好處在于,媒體會針對他們所關心的話題來報道賽事。
  最后是“語義情感分析”,也就是搞清楚球迷在討論什么話題后,再判斷球迷的立場。這樣一來,比賽之后,球迷們對球賽或者隊員的看法就一目了然了。
  所以說,以前技術可能只擅長挖掘大……數據,也就是數據本身,而現在,它還能判斷你們在聊什么。
  未來不可預測,大數據:怪我咯?
  反大數據思潮中另一個重要觀點是,大數據只是基于對歷史信息的梳理,無法預測未來。
  2008年,谷歌公司建立了一個預測流感趨勢的網站,用統(tǒng)計網絡搜索關鍵詞的方法來計算流感在某地區(qū)發(fā)生的可能性。這個網站當即被作為大數據預測未來的經典案例,然而,這個系統(tǒng)卻沒預測到2009年H1N1禽流感的爆發(fā)。雖然外界沒說什么,但谷歌內部憋了一口氣,立即對預測算法做了調整。新的算法引起了另一個問題,他們的預測工具變得比更年期女性還敏感,動不動就發(fā)布疫情預報。
  到了2013年2月,《自然》雜志實在忍不住發(fā)表文章說,你們谷歌的不靠譜預測導致1月份流感疫苗都脫銷了可還行!
  有人拿大數據這種“測不準”的尷尬跟地質學的“均變論”類比,因為以古論今的觀點容易忽略了那些不可預知的事件,積累了再多過去的信息,也沒有辦法知道接下來會發(fā)生什么突變。
  不過,大數據服務商們可沒打算改行去算命,至少現在沒有?;氐轿恼伦铋_始的剁手黨案例,你以為電商們真的笨到以為這種廣告投放能百分之百達到效果嗎?圖樣圖森破,他們選擇這種推薦方式只不過是因為它容錯率高而已。就算推薦的商品用戶沒相中,大不了再推薦就是了。目前,他們并沒有對大數據預測抱有高度的信心,在那些不允許大誤差、嚴重關切企業(yè)利益的商業(yè)活動中,是不會僅憑大數據預測來做決策的。
  話說回來,預測未來是個高深的概率問題,大數據可能不行,但目前也沒有其他工具行。
  不管你信不信,機器只會變得越來越聰明
  David的文章還提到數據分析不懂敘事,也不懂思維的浮現過程。然而,今年7月,美聯(lián)社宣布今后將采用一種軟件產品來撰寫企業(yè)財報消息,這種機器人就是依靠大數據來抓取信息,根據算法來撰寫新聞,它們甚至可以完美模擬人類作者的語調和風格。
  2011年IBM造了個叫“沃森”的計算機出來挑戰(zhàn)人類,在美國智力競賽節(jié)目《危險邊緣》(Jeopardy?。┲袏Z冠。這一次,它已經可以識別人類語言,分析斷句、詞義,甚至連雙關語、反語都不在話下。它通過數據對比和模擬人類聯(lián)想得出答案,再用人類語言回答上來。壹讀君看了一下節(jié)目,他答對的問題從歐盟2010年文化之都、電影《百萬寶貝》到印度的吠陀梵語,五花八門。重要的是,這些問題都是在互聯(lián)網斷開的情況下回答上來的,不用度娘就這么博學,真是給跪了。
  所以說,在David寫完文章之后,大數據世界的變革仍在繼續(xù),工程師們需要專注的只是算法,算法,還是算法。
  當然了,反大數據的人們關注的問題還有在進一步發(fā)展大數據應用時,如何保護用戶的隱私?人們不僅要為黑客擔心,還不希望看到企業(yè)為了利益而侵犯大眾隱私。反過來,使用大數據工具的企業(yè)們其實也在為數據的真實性而擔心,比如招聘時抓取的簡歷信息會不會有造假成分、抽樣來的微博用戶是不是雇傭水軍炒作話題。
  但是,這些與其說是科學問題,不如說是道德問題。
  說了這么多,壹讀君只不過想要說明一個寡淡的真理,任何新興事物出現的時候必然帶有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了。

 高頓網校官方微信
掃一掃微信,關注*7財經資訊