“大數(shù)據(jù)”是近幾年產(chǎn)學(xué)界的熱門(mén)議題之一,但許多人雖然聽(tīng)過(guò)“大數(shù)據(jù)”這個(gè)名詞,卻對(duì)于其內(nèi)涵不甚理解,有的人認(rèn)為大數(shù)據(jù)就是“量很大”的數(shù)據(jù),更有人以為凡是搜集數(shù)據(jù)加以分析就是大數(shù)據(jù)。
大數(shù)據(jù)讓你能分析利用來(lái)自許多渠道、豐富多元的即時(shí)串流信息。大數(shù)據(jù)對(duì)企業(yè)貢獻(xiàn)良多,其中很重要的一點(diǎn)便是“創(chuàng)新”。
大數(shù)據(jù)在營(yíng)運(yùn)各階段協(xié)助公司創(chuàng)新經(jīng)營(yíng)的方式,不論是市場(chǎng)調(diào)查、產(chǎn)品開(kāi)發(fā),還是產(chǎn)品上市,都能讓企業(yè)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。通過(guò)本文一起來(lái)了解大數(shù)據(jù)的魅力。
以數(shù)據(jù)為基礎(chǔ)來(lái)解決問(wèn)題
要了解大數(shù)據(jù)前,我們要先了解“數(shù)據(jù)”,同時(shí)了解“數(shù)據(jù)”、“信息”(Information)、“知識(shí)”(Knowledge)、“智能”(Wisdom)彼此的關(guān)聯(lián)性。
“數(shù)據(jù)”是無(wú)組織的事實(shí)和統(tǒng)計(jì),通常以數(shù)字、文字或其他形式存在,例如:某個(gè)班上統(tǒng)計(jì)同學(xué)數(shù)學(xué)考試的準(zhǔn)備時(shí)間,分別得到8小時(shí)、10小時(shí)、12小時(shí)等數(shù)字,這些準(zhǔn)備數(shù)學(xué)考試的時(shí)數(shù)就是數(shù)據(jù)。
將數(shù)據(jù)進(jìn)一步處理,使其在組織、分析、解釋后變得有意義,就成了“信息”,例如上述班上同學(xué)數(shù)學(xué)考試的準(zhǔn)備時(shí)間的例子,我們可以針對(duì)考試及格與不及格的人的準(zhǔn)備時(shí)間進(jìn)一步做統(tǒng)計(jì),得到“數(shù)學(xué)考試及格的人平均準(zhǔn)備時(shí)數(shù)是12小時(shí),不及格的人平均準(zhǔn)備時(shí)數(shù)只有6小時(shí)”這樣的信息。
而“知識(shí)”則是對(duì)信息再進(jìn)一步的理解與應(yīng)用,例如:從上述數(shù)學(xué)考試及格與不及格的同學(xué)平均準(zhǔn)備時(shí)數(shù)的信息中,老師可以得到“增加準(zhǔn)備時(shí)數(shù)確實(shí)可以提高成績(jī)”的知識(shí)。
而“智能”則是指在特定情境下明智地應(yīng)用知識(shí),做出明確的、基于經(jīng)驗(yàn)和判斷的決策。老師如果知道準(zhǔn)備時(shí)數(shù)可以提高同學(xué)成績(jī),那么老師要如何進(jìn)行課程和活動(dòng)的安排,在不增加同學(xué)壓力和負(fù)擔(dān)的狀況下提高他們準(zhǔn)備的時(shí)數(shù)呢?在實(shí)際的情境下妥善應(yīng)用知識(shí),就是智能。通過(guò)以上的描述,我們知道,以數(shù)據(jù)為基礎(chǔ),從數(shù)據(jù)出發(fā),可以解決很多問(wèn)題。
經(jīng)常和數(shù)據(jù)一起同時(shí)被提到的是“演算法”(Algorithm),演算法指的是一系列用于解決特定問(wèn)題或執(zhí)行特定任務(wù)的指令或步驟,例如:線性回歸、決策樹(shù)、深度學(xué)習(xí)等。把數(shù)據(jù)加上演算法加上計(jì)算(訓(xùn)練與預(yù)測(cè))就形成了“模型”(Model),模型可以用來(lái)描述或預(yù)測(cè)新的事物,例如:線性回歸模型、決策樹(shù)模型、深度學(xué)習(xí)模型等。
大數(shù)據(jù)是數(shù)據(jù)驅(qū)動(dòng)時(shí)代下的產(chǎn)物
數(shù)據(jù)非常有用,數(shù)據(jù)通過(guò)演算法的訓(xùn)練形成的模型尤其有用??墒潜挥脕?lái)訓(xùn)練模型的數(shù)據(jù)是基于樣本,而樣本有質(zhì)與量的問(wèn)題,所以就會(huì)產(chǎn)生誤差。而經(jīng)過(guò)科學(xué)家長(zhǎng)期的研究發(fā)現(xiàn),在數(shù)據(jù)品質(zhì)可以確保的前提下,數(shù)據(jù)量越大,某一個(gè)變量對(duì)于預(yù)測(cè)的結(jié)果造成的影響越小,白話文就是數(shù)據(jù)越多,結(jié)果越準(zhǔn),這在數(shù)學(xué)上稱(chēng)為“切比雪夫不等式”。在實(shí)際上,少量的數(shù)據(jù)搭配復(fù)雜的模型,對(duì)于結(jié)果預(yù)測(cè)的準(zhǔn)確度,往往不如大量的數(shù)據(jù)搭配簡(jiǎn)單的幾個(gè)模型,后者也是現(xiàn)代數(shù)據(jù)驅(qū)動(dòng)方法的基礎(chǔ),數(shù)據(jù)驅(qū)動(dòng)是目前IT領(lǐng)域解決問(wèn)題主流的方法,也是大數(shù)據(jù)興起的原因。
大數(shù)據(jù)不僅僅指的是數(shù)據(jù)的規(guī)模大,它也意味著數(shù)據(jù)有“多維度”和“完備性”,某些情況下,它也有“即時(shí)性”的意涵。所謂“多維度”,指的是一筆數(shù)據(jù)有多個(gè)維度的數(shù)據(jù),例如:某個(gè)購(gòu)物網(wǎng)站的一筆購(gòu)買(mǎi)記錄,除了購(gòu)買(mǎi)者與購(gòu)買(mǎi)的商品之外,可能還同時(shí)記錄使用者購(gòu)買(mǎi)的路徑、上站的裝置、做成決定所花的時(shí)間等數(shù)據(jù),由于數(shù)據(jù)是多維度的,可以分析的角度相對(duì)地就比較多,也更有機(jī)會(huì)產(chǎn)生特別的洞察。
所謂“完備性”,就是讓樣本數(shù)盡可能接近母體,著名的例子是谷歌當(dāng)年開(kāi)發(fā)翻譯系統(tǒng)時(shí),并沒(méi)有采用傳統(tǒng)在兩個(gè)語(yǔ)言間撰寫(xiě)眾多的規(guī)則進(jìn)行轉(zhuǎn)譯的方法,而是在兩個(gè)語(yǔ)言間提供盡可能完備的翻譯讓系統(tǒng)學(xué)習(xí),而經(jīng)過(guò)實(shí)測(cè)后者確實(shí)取得了更好的效果。“即時(shí)性”不是大數(shù)據(jù)的必備條件,但在某些應(yīng)用上很重要,例如:導(dǎo)航系統(tǒng),如果沒(méi)有辦法即時(shí)取得路況的數(shù)據(jù)的話,那導(dǎo)航的功能根本無(wú)法運(yùn)作。
大數(shù)據(jù)是在什么條件下形成的呢?主要的原因是網(wǎng)際網(wǎng)絡(luò)的興起與移動(dòng)網(wǎng)絡(luò)時(shí)代的到來(lái),讓我們有更多的渠道和設(shè)備收集數(shù)據(jù),并且在儲(chǔ)存與運(yùn)算成本大幅降低的情況下,我們可以有效地利用這些數(shù)據(jù)。
簡(jiǎn)單地說(shuō),世界充滿不確定性,大數(shù)據(jù)的本質(zhì)就是要用信息消除不確定性。前面說(shuō)過(guò),大數(shù)據(jù)是數(shù)據(jù)驅(qū)動(dòng)時(shí)代下的產(chǎn)物,在數(shù)據(jù)品質(zhì)確保的前提下,數(shù)據(jù)越多,預(yù)測(cè)結(jié)果越準(zhǔn)確。
人工智能的來(lái)臨,是機(jī)器還是人類(lèi)勝利?
人工智能早期的方法是模擬人類(lèi)的行為,但因?yàn)槿狈ν黄?,進(jìn)入了長(zhǎng)期的低谷期,直到數(shù)據(jù)驅(qū)動(dòng)的方法與大數(shù)據(jù)的出現(xiàn),讓智能問(wèn)題變成了數(shù)據(jù)問(wèn)題。最典型的例子就是阿爾法狗在圍棋上戰(zhàn)勝人類(lèi)世界冠軍的例子,如果單單只是模擬人類(lèi)下棋的思路,阿爾法狗是無(wú)法戰(zhàn)勝人類(lèi)的。但阿爾法狗在模仿人類(lèi)棋步的基礎(chǔ)之上,又使用強(qiáng)化學(xué)習(xí)與自己大量對(duì)奕,最終通過(guò)結(jié)合幾種不同的演算法與大量的數(shù)據(jù)戰(zhàn)勝了世界冠軍。
很多人說(shuō)阿爾法狗戰(zhàn)勝世界冠軍是機(jī)器的勝利,但這其實(shí)是人類(lèi)的勝利,因?yàn)樵诖髷?shù)據(jù)、演算法、計(jì)算能力三者大幅進(jìn)化的帶動(dòng)下,人工智能領(lǐng)域有了突破,進(jìn)入了全新的時(shí)代。所以當(dāng)我們?cè)谔剿鞔髷?shù)據(jù)這個(gè)領(lǐng)域時(shí),必須了解到,大數(shù)據(jù)的意義不在于它能幫助我們把模型描述得更精準(zhǔn),也不在于幫我們把一些規(guī)律認(rèn)識(shí)得更深刻,它最大的意義是讓機(jī)器可以做到一些人類(lèi)能做到的事,也就是驅(qū)動(dòng)人工智能的突破。