西西軟件園多重安全檢測(cè)下載網(wǎng)站、值得信賴(lài)的軟件下載站!
軟件
軟件
文章
搜索

首頁(yè)業(yè)內(nèi)動(dòng)態(tài) 網(wǎng)絡(luò)雜燴 → “大數(shù)據(jù)”這詞不火了 是不是因?yàn)闆](méi)當(dāng)年說(shuō)的那么好

“大數(shù)據(jù)”這詞不火了 是不是因?yàn)闆](méi)當(dāng)年說(shuō)的那么好

相關(guān)軟件相關(guān)文章發(fā)表評(píng)論 來(lái)源:西西整理時(shí)間:2016/8/8 9:42:31字體大。A-A+

作者:西西點(diǎn)擊:1947次評(píng)論:0次標(biāo)簽: 大數(shù)據(jù)

  • 類(lèi)型:新聞資訊大。3.9M語(yǔ)言:中文 評(píng)分:10.0
  • 標(biāo)簽:
立即下載

10月19日消息,國(guó)外媒體Slate刊文指出,“大數(shù)據(jù)(Big Data)”一詞已經(jīng)變得沒(méi)有以往那么紅火了,為什么會(huì)這樣呢?大數(shù)據(jù)一直很火,也一直沒(méi)有記者想的那么火。渡過(guò)了炒作期,很多企業(yè)已經(jīng)實(shí)實(shí)在在應(yīng)用起來(lái),那些門(mén)道熱鬧都看不懂的吃雞群眾只需提供自己小數(shù)據(jù)。

“大數(shù)據(jù)”的問(wèn)題并不在于數(shù)據(jù)或者大數(shù)據(jù)本身很糟糕,而是在于盲目迷戀數(shù)據(jù),不加批判地使用,那會(huì)引發(fā)災(zāi)難。數(shù)據(jù)也不一定完全反映你想要了解的事情的實(shí)際情況。

以下是文章主要內(nèi)容:

5年前——2012年2月——《紐約時(shí)報(bào)》刊文高呼人類(lèi)的一個(gè)新紀(jì)元的到來(lái):“大數(shù)據(jù)時(shí)代”。該文章告訴我們,社會(huì)將開(kāi)始發(fā)生一場(chǎng)革命,在這場(chǎng)革命中,海量數(shù)據(jù)的收集與分析將會(huì)改變?nèi)藗兩畹膸缀趺恳粋(gè)方面。數(shù)據(jù)分析不再局限于電子數(shù)據(jù)表和回歸分析:超級(jí)計(jì)算的到來(lái),伴隨著可持續(xù)記錄數(shù)據(jù)并將數(shù)據(jù)傳送到云端的聯(lián)網(wǎng)傳感器的不斷普及,意味著邁克爾·劉易斯(Michael Lewis)2003年的棒球書(shū)籍《Moneyball》所描述的那種先進(jìn)數(shù)據(jù)分析有望被應(yīng)用于各行各業(yè),從商業(yè)到學(xué)術(shù),再到醫(yī)療和兩性關(guān)系。不僅如此,高端的數(shù)據(jù)分析軟件還有助于鑒定完全意想不到的相關(guān)性,比如貸款方用盡額度和他債務(wù)違約的可能性之間的關(guān)系。這勢(shì)必將會(huì)催生會(huì)改變我們思考幾乎一切事物的新穎見(jiàn)解。

《紐約時(shí)報(bào)》并不是第一個(gè)得出這一結(jié)論的企業(yè)機(jī)構(gòu):它的文章引用了麥肯錫咨詢(xún)公司2011年的一份重大報(bào)告,其觀(guān)點(diǎn)也得到了2012年瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇題為“大數(shù)據(jù),大影響”的官方報(bào)告的支持。但這種宣言仿佛就是標(biāo)志大數(shù)據(jù)時(shí)代開(kāi)啟的里程碑。在之后的一個(gè)月里,巴拉克·奧巴馬(Barack Obama)的白宮成了一個(gè)2億美元的國(guó)家大數(shù)據(jù)項(xiàng)目,瘋狂熱潮隨即襲來(lái):學(xué)術(shù)機(jī)構(gòu)、非盈利組織、政府和企業(yè)都爭(zhēng)相去探究“大數(shù)據(jù)”究竟是什么,他們可以如何好好利用它。

事實(shí)證明,這種瘋狂沒(méi)有持續(xù)很長(zhǎng)時(shí)間。5年后,數(shù)據(jù)在我們的日常生活中扮演重要很多的角色,但大數(shù)據(jù)一詞已經(jīng)不再流行——甚至讓人覺(jué)得有些討厭。我們被允諾的那場(chǎng)革命究竟發(fā)生了什么呢?數(shù)據(jù)、分析技術(shù)和算法現(xiàn)在又在往什么方向發(fā)展呢?這些問(wèn)題值得回頭去思考。

科技咨詢(xún)公司Gartner在它2015年相當(dāng)有名的“技術(shù)成熟度曲線(xiàn)”報(bào)告中不再使用“大數(shù)據(jù)”一次,之后該詞再也沒(méi)有回歸。該公司澄清道,這并不是因?yàn)槠髽I(yè)放棄挖掘巨量數(shù)據(jù)集獲得洞見(jiàn)的概念。而是因?yàn)槟欠N做法已經(jīng)變得廣為流行,以至于它不再符合“新興技術(shù)”的定義。大數(shù)據(jù)幫助驅(qū)動(dòng)我們的動(dòng)態(tài)消息、Netflix視頻推薦、自動(dòng)化股票交易、自動(dòng)校正功能、健康跟蹤設(shè)備等不計(jì)其數(shù)的工具背后的算法。但我們現(xiàn)在不大使用大數(shù)據(jù)一詞了——我們只是將它稱(chēng)作數(shù)據(jù)。我們開(kāi)始將數(shù)據(jù)集能夠包含無(wú)數(shù)的觀(guān)察結(jié)果,先進(jìn)軟件能夠檢測(cè)當(dāng)中的趨勢(shì)當(dāng)做理所當(dāng)然的事情。

大數(shù)據(jù)引發(fā)的嚴(yán)重錯(cuò)誤

雖然該詞仍有被使用,但它更多地帶有一種不好的意味,比如凱茜·奧尼爾(Cathy O’Neil)2016年的著作《數(shù)學(xué)殺傷性武器》(Weapons of Math Destruction)或者弗蘭克·帕斯夸里(Frank Pasquale)2015年的《黑箱社會(huì)》(The Black Box Society)。匆忙執(zhí)行和應(yīng)用大數(shù)據(jù),即進(jìn)行所謂的“數(shù)據(jù)驅(qū)動(dòng)型決策”,帶來(lái)了嚴(yán)重的錯(cuò)誤。

有的錯(cuò)誤相當(dāng)惹人注目:塔吉特(Target)曾向一位沒(méi)跟任何人說(shuō)過(guò)自己懷孕的少女的家庭派送嬰兒用品優(yōu)惠券;Pinterest曾恭喜一位單身女性即將結(jié)婚;谷歌照片(Google Photos)也曾引發(fā)軒然大波,該公司被大肆吹捧的AI將黑人誤以為是大猩猩,原因是它的訓(xùn)練數(shù)據(jù)不夠多元化。(值得指出的是,至少在該事件中,“大數(shù)據(jù)”還不夠大。)

其它的錯(cuò)誤更為微妙,或許也更加陰險(xiǎn)。當(dāng)中包括奧尼爾在她的重要著作中記錄的那些不透明的數(shù)據(jù)驅(qū)動(dòng)式制度性模型:被法庭用來(lái)判決罪犯的、帶有種族偏見(jiàn)的累犯模型,或者那些基于可疑的測(cè)驗(yàn)分?jǐn)?shù)數(shù)據(jù)解雇備受愛(ài)戴的教師的模型。大數(shù)據(jù)出錯(cuò)的新案例可謂層出不窮——比如Facebook算法明顯幫助俄羅斯通過(guò)針對(duì)性的假新聞?dòng)绊懨绹?guó)總統(tǒng)大選的結(jié)果。

盲目迷戀數(shù)據(jù)與誤用

“大數(shù)據(jù)”的問(wèn)題并不在于數(shù)據(jù)本身很糟糕,也不在于大數(shù)據(jù)本身很糟糕:謹(jǐn)慎應(yīng)用的話(huà),大型數(shù)據(jù)集還是能夠揭示其它途徑發(fā)現(xiàn)不了的重要趨勢(shì)。正如茱莉婭·羅斯·韋斯特(Julia Rose West)在最近給Slate撰寫(xiě)的文章里所說(shuō)的,盲目迷戀數(shù)據(jù),不加批判地使用,往往導(dǎo)致災(zāi)難的發(fā)生。

從本質(zhì)來(lái)看,大數(shù)據(jù)不容易解讀。當(dāng)你收集數(shù)十億個(gè)數(shù)據(jù)點(diǎn)的時(shí)候——一個(gè)網(wǎng)站上的點(diǎn)擊或者光標(biāo)位置數(shù)據(jù);大型公共空間十字轉(zhuǎn)門(mén)的轉(zhuǎn)動(dòng)次數(shù);對(duì)世界各地每個(gè)小時(shí)的風(fēng)速觀(guān)察;推文——任何給定的數(shù)據(jù)點(diǎn)的來(lái)源會(huì)變得模糊。這反過(guò)來(lái)意味著,看似高級(jí)別的趨勢(shì)可能只是數(shù)據(jù)問(wèn)題或者方法造成的產(chǎn)物。但也許更重大的問(wèn)題是,你所擁有的數(shù)據(jù)通常只是你真正想要知道的東西的一個(gè)指標(biāo)。大數(shù)據(jù)不能解決那個(gè)問(wèn)題——它反而放大了那個(gè)問(wèn)題。

例如,民意調(diào)查被廣泛用作衡量人們?cè)谶x舉中的投票意向的指標(biāo)。然而,從湯姆·布拉德利(Tom Bradley)1982年在加州州長(zhǎng)競(jìng)選中敗北,到英國(guó)脫歐公投,再到特朗普的當(dāng)選,數(shù)十年來(lái)結(jié)果出乎意料的選舉一再提醒我們,民意測(cè)驗(yàn)和人們實(shí)際的投票意向之間并不總是完全一致。Facebook以往主要通過(guò)用戶(hù)有沒(méi)有點(diǎn)贊來(lái)估量他們對(duì)特定的帖子是否有興趣。但隨著經(jīng)過(guò)算法優(yōu)化的動(dòng)態(tài)信息開(kāi)始大量出現(xiàn)標(biāo)題誘餌、點(diǎn)贊誘餌和嬰兒照片——導(dǎo)致用戶(hù)滿(mǎn)意度明顯下降——該公司的高層逐漸意識(shí)到,“點(diǎn)贊”這事并不一定意味著用戶(hù)真的喜歡特定的內(nèi)容。

指標(biāo)和你實(shí)際上要估量的東西之間的差別越大,過(guò)于倚重它就越危險(xiǎn)。以來(lái)自?shī)W尼爾的著作的前述例子為例:學(xué)區(qū)使用數(shù)學(xué)模型來(lái)讓教師的表現(xiàn)評(píng)估與學(xué)生的測(cè)驗(yàn)分?jǐn)?shù)掛鉤。學(xué)生測(cè)驗(yàn)分?jǐn)?shù)與不在教師控制范圍內(nèi)的無(wú)數(shù)重要因素有關(guān)。大數(shù)據(jù)的其中一個(gè)優(yōu)勢(shì)在于,即便是在非常嘈雜的數(shù)據(jù)集里,你也可以發(fā)現(xiàn)有意義的關(guān)聯(lián)性,這主要得益于數(shù)據(jù)量大以及理論上能夠控制混雜變量的強(qiáng)大軟件算法。例如,奧尼爾描述的那個(gè)模型,利用來(lái)自多個(gè)學(xué)區(qū)和體系的學(xué)生的眾多人口結(jié)構(gòu)方面的相關(guān)性,來(lái)生成測(cè)驗(yàn)分?jǐn)?shù)的“預(yù)期”數(shù)據(jù)集,再拿它們與學(xué)生的實(shí)際成績(jī)進(jìn)行比較。(由于這個(gè)原因,奧尼爾認(rèn)為它是“大數(shù)據(jù)”例子,盡管那個(gè)數(shù)據(jù)集并不夠大,沒(méi)達(dá)到該詞的一些技術(shù)定義的門(mén)檻。)

試想一下,這樣的系統(tǒng)被應(yīng)用在同一所學(xué)校里面——拿每個(gè)年級(jí)的教師與其它年級(jí)的教師比較。要不是大數(shù)據(jù)的魔法,學(xué)生特定學(xué)年異常的測(cè)驗(yàn)分?jǐn)?shù)會(huì)非常惹眼。任何評(píng)估那些測(cè)驗(yàn)的聰明人,都不會(huì)認(rèn)為它們能夠很好地反映學(xué)生的能力,更不用說(shuō)教他們的老師了。

而前華盛頓特區(qū)教育局長(zhǎng)李洋姬(Michelle Rhee)實(shí)行的系統(tǒng)相比之下更不透明。因?yàn)閿?shù)據(jù)集比較大,而不是小,它必須要由第三方的咨詢(xún)公司利用專(zhuān)門(mén)的數(shù)學(xué)模型來(lái)進(jìn)行分析解讀。這可帶來(lái)一種客觀(guān)性,但它也排除掉了嚴(yán)密質(zhì)問(wèn)任何給定的信息輸出,來(lái)看看該模型具體如何得出它的結(jié)論的可能性。

例如,奧尼爾分析道,有的教師得到低評(píng)分,可能不是因?yàn)樗麄兊膶W(xué)生表現(xiàn)糟糕,而是因?yàn)槟切⿲W(xué)生之前一年表現(xiàn)得出奇地好——可能因?yàn)橄旅婺莻(gè)年級(jí)的教師謊稱(chēng)那些學(xué)生表現(xiàn)很好,以提升他自己的教學(xué)評(píng)分。但對(duì)于那種可能性,學(xué)校高層并沒(méi)什么興趣去深究那種模型的機(jī)制來(lái)予以證實(shí)。

加入更多指標(biāo)

并不是說(shuō)學(xué)生測(cè)驗(yàn)分?jǐn)?shù)、民意調(diào)查、內(nèi)容排名算法或者累犯預(yù)測(cè)模型統(tǒng)統(tǒng)都需要忽視。除了停用數(shù)據(jù)和回歸到奇聞?shì)W事和直覺(jué)判斷以外,至少有兩種可行的方法來(lái)處理數(shù)據(jù)集和你想要估量或者預(yù)計(jì)的現(xiàn)實(shí)世界結(jié)果之間不完全相關(guān)帶來(lái)的問(wèn)題。

其中一種方法是加入更多的指標(biāo)數(shù)據(jù)。Facebook采用這種做法已有很長(zhǎng)一段時(shí)間。在了解到用戶(hù)點(diǎn)贊不能完全反映他們?cè)趧?dòng)態(tài)消息當(dāng)中實(shí)際想要看到的東西以后,該公司給它的模型加入了更多的指標(biāo)。它開(kāi)始測(cè)量其它的東西,比如用戶(hù)看一篇帖子的時(shí)長(zhǎng),他們?yōu)g覽其點(diǎn)擊的文章的時(shí)間,他們是在看內(nèi)容之前還是之后點(diǎn)贊。Facebook的工程師盡可能地去權(quán)衡和優(yōu)化那些指標(biāo),但他們發(fā)現(xiàn)用戶(hù)大體上還是對(duì)動(dòng)態(tài)消息里呈現(xiàn)的內(nèi)容不滿(mǎn)意。因此,該公司進(jìn)一步增加測(cè)量指標(biāo):它開(kāi)始展開(kāi)大范圍的用戶(hù)調(diào)查,增加新的反應(yīng)表情讓用戶(hù)可以傳達(dá)更加細(xì)微的感受,并開(kāi)始利用AI來(lái)按頁(yè)面和按出版者檢測(cè)帖子的標(biāo)題黨語(yǔ)言。該社交網(wǎng)絡(luò)知道這些指標(biāo)沒(méi)有一個(gè)是完美的。但是,通過(guò)增加更多的指標(biāo),它理論上能夠更加接近于形成可給用戶(hù)展示他們最想要看到的帖子的算法。

這種做法的一個(gè)弊端在于,它難度大,成本高昂。另一個(gè)弊端在于,你的模型加入的變量越多,它的方法就會(huì)變得越錯(cuò)綜復(fù)雜,越不透明,越難以理解。這是帕斯夸里在《黑箱社會(huì)》里闡述的問(wèn)題的一部分。算法再先進(jìn),所利用的數(shù)據(jù)集再好,它也有可能會(huì)出錯(cuò)——而它出錯(cuò)的時(shí)候,診斷問(wèn)題幾無(wú)可能!斑^(guò)度擬合”和盲目相信也會(huì)帶來(lái)危險(xiǎn):你的模型越先進(jìn),它看上去與你過(guò)往所有的觀(guān)察越吻合,你對(duì)它越有信心,它最終讓你一敗涂地的危險(xiǎn)就越大。(想想次貸危機(jī)、選舉預(yù)測(cè)模型和Zynga吧。)

小數(shù)據(jù)

對(duì)于源自大數(shù)據(jù)集偏見(jiàn)的問(wèn)題,另一個(gè)潛在的應(yīng)對(duì)方法是部分人所說(shuō)的“小數(shù)據(jù)”。小數(shù)據(jù)是指,數(shù)據(jù)集足夠簡(jiǎn)單到可以直接由人來(lái)分析和解讀,不需要求助于超級(jí)計(jì)算機(jī)或者Hadoop作業(yè)。跟“慢餐”一樣,該詞也是因?yàn)槠湎喾疵娴牧餍卸a(chǎn)生。

丹麥作家、營(yíng)銷(xiāo)顧問(wèn)馬丁·林德斯特羅姆(Martin Lindstrom)在他2016年的著作《小數(shù)據(jù):揭示大趨勢(shì)的微小線(xiàn)索》中談到了那種做法。例如,丹麥知名玩具廠(chǎng)商樂(lè)高(Lego)依據(jù)大量聲稱(chēng)千禧一代需要即時(shí)滿(mǎn)足,更容易被比較輕松的項(xiàng)目吸引的研究,轉(zhuǎn)向提供更大的積木,還在1990年代末和2000年代初打造主題公園和視頻游戲。這種轉(zhuǎn)型沒(méi)有奏效。

那種由數(shù)據(jù)驅(qū)動(dòng)的范式最后被它的營(yíng)銷(xiāo)者2004年進(jìn)行的一項(xiàng)范圍小得多的人類(lèi)學(xué)調(diào)查顛覆。它的營(yíng)銷(xiāo)者逐個(gè)詢(xún)問(wèn)小孩他們最珍愛(ài)什么物品,發(fā)現(xiàn)他們最喜歡也最忠于可讓顯示出其苦苦練就的能力的產(chǎn)品——比如一雙因數(shù)百個(gè)小時(shí)的滑板練習(xí)而磨損的舊運(yùn)動(dòng)鞋。據(jù)林德斯特羅姆(他曾擔(dān)當(dāng)樂(lè)高的顧問(wèn),自己也很喜歡玩樂(lè)高積木)說(shuō),樂(lè)高重新專(zhuān)注于提供它原來(lái)的小積木,由此實(shí)現(xiàn)復(fù)興。

在很多方面,亞馬遜是可充分說(shuō)明大數(shù)據(jù)威力的典型例子。它關(guān)于其數(shù)以?xún)|計(jì)的顧客的購(gòu)買(mǎi)和商品瀏覽習(xí)慣的數(shù)據(jù),幫助它成為全世界最成功的零售商之一。不過(guò),布拉德·斯通(Brad Stone)在他的書(shū)《萬(wàn)貨商店》(Everything Store)中稱(chēng),該公司的CEO杰夫·貝索斯(Jeff Bezos)有個(gè)很有趣(對(duì)于他的員工來(lái)說(shuō)則很可怕)的方式來(lái)平衡所有的那些客觀(guān)數(shù)據(jù)分析。他時(shí)不時(shí)會(huì)將顧客發(fā)來(lái)的投訴郵件轉(zhuǎn)發(fā)給他的高層團(tuán)隊(duì),要求他們不僅僅要解決投訴的問(wèn)題,還要徹底調(diào)查清楚它發(fā)生的原因,并撰寫(xiě)一份解釋報(bào)告。

這說(shuō)明,貝索斯不僅僅理解大數(shù)據(jù)提升各個(gè)系統(tǒng)運(yùn)行效率的威力,還知道大數(shù)據(jù)也要可能會(huì)掩蓋沒(méi)有得到有效估量的特定問(wèn)題的發(fā)生原因和機(jī)制。在根據(jù)你知道該如何測(cè)量的事情做出決策的時(shí)候,安全的做法是確保也有機(jī)制讓你能夠知道你不知道該如何估量的事情!皢(wèn)題總是,你沒(méi)有收集什么數(shù)據(jù)?”奧尼爾在接受電話(huà)采訪(fǎng)時(shí)表示,“什么數(shù)據(jù)是你看不到的?”

未來(lái)展望

隨著“大數(shù)據(jù)”不再被當(dāng)做熱詞,我們有希望逐漸對(duì)數(shù)據(jù)的威力和陷阱形成更加細(xì)致入微的理解;仡^來(lái)看,收集數(shù)據(jù)的傳感器和分析數(shù)據(jù)的超級(jí)計(jì)算機(jī)一下子大量涌現(xiàn),引發(fā)一股淘金熱,以及很多時(shí)候錯(cuò)失這一切的恐懼會(huì)壓過(guò)你的審慎情緒,都是可以理解的。與此同時(shí),必然會(huì)有深思熟慮的人開(kāi)始引起我們對(duì)這些情況的注意,大數(shù)據(jù)也不可避免地會(huì)帶來(lái)反效果。

不過(guò),大數(shù)據(jù)誤用帶來(lái)的威脅,不會(huì)僅僅因?yàn)槲覀儾辉儆镁次返目谖莵?lái)說(shuō)那個(gè)詞而消失?纯碐artner 2017年技術(shù)成熟度曲線(xiàn)的頂峰,你會(huì)看到像機(jī)器學(xué)習(xí)和深度學(xué)習(xí)這樣的詞,以及代表這些計(jì)算技術(shù)的現(xiàn)實(shí)應(yīng)用的無(wú)人駕駛汽車(chē)、虛擬助手等相關(guān)的詞。這些是基于與大數(shù)據(jù)一樣的基礎(chǔ)的新“棚架層”,它們?nèi)家蕾?lài)于大數(shù)據(jù)。它們已經(jīng)走在通向真正的突破的道路上——但可以肯定的是,它們也會(huì)導(dǎo)致嚴(yán)重的錯(cuò)誤。

    相關(guān)評(píng)論

    閱讀本文后您有什么感想? 已有人給出評(píng)價(jià)!

    • 8 喜歡喜歡
    • 3 頂
    • 1 難過(guò)難過(guò)
    • 5 囧
    • 3 圍觀(guān)圍觀(guān)
    • 2 無(wú)聊無(wú)聊

    熱門(mén)評(píng)論

    最新評(píng)論

    發(fā)表評(píng)論 查看所有評(píng)論(0)

    昵稱(chēng):
    表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
    字?jǐn)?shù): 0/500 (您的評(píng)論需要經(jīng)過(guò)審核才能顯示)