“大數(shù)據(jù)”是近幾年產(chǎn)學(xué)界的熱門議題之一,但許多人雖然聽過“大數(shù)據(jù)”這個名詞,卻對于其內(nèi)涵不甚理解,有的人認(rèn)為大數(shù)據(jù)就是“量很大”的數(shù)據(jù),更有人以為凡是搜集數(shù)據(jù)加以分析就是大數(shù)據(jù)。
大數(shù)據(jù)讓你能分析利用來自許多渠道、豐富多元的即時串流信息。大數(shù)據(jù)對企業(yè)貢獻(xiàn)良多,其中很重要的一點便是“創(chuàng)新”。
大數(shù)據(jù)在營運各階段協(xié)助公司創(chuàng)新經(jīng)營的方式,不論是市場調(diào)查、產(chǎn)品開發(fā),還是產(chǎn)品上市,都能讓企業(yè)保持競爭優(yōu)勢。通過本文一起來了解大數(shù)據(jù)的魅力。
以數(shù)據(jù)為基礎(chǔ)來解決問題
要了解大數(shù)據(jù)前,我們要先了解“數(shù)據(jù)”,同時了解“數(shù)據(jù)”、“信息”(Information)、“知識”(Knowledge)、“智能”(Wisdom)彼此的關(guān)聯(lián)性。
“數(shù)據(jù)”是無組織的事實和統(tǒng)計,通常以數(shù)字、文字或其他形式存在,例如:某個班上統(tǒng)計同學(xué)數(shù)學(xué)考試的準(zhǔn)備時間,分別得到8小時、10小時、12小時等數(shù)字,這些準(zhǔn)備數(shù)學(xué)考試的時數(shù)就是數(shù)據(jù)。
將數(shù)據(jù)進(jìn)一步處理,使其在組織、分析、解釋后變得有意義,就成了“信息”,例如上述班上同學(xué)數(shù)學(xué)考試的準(zhǔn)備時間的例子,我們可以針對考試及格與不及格的人的準(zhǔn)備時間進(jìn)一步做統(tǒng)計,得到“數(shù)學(xué)考試及格的人平均準(zhǔn)備時數(shù)是12小時,不及格的人平均準(zhǔn)備時數(shù)只有6小時”這樣的信息。
而“知識”則是對信息再進(jìn)一步的理解與應(yīng)用,例如:從上述數(shù)學(xué)考試及格與不及格的同學(xué)平均準(zhǔn)備時數(shù)的信息中,老師可以得到“增加準(zhǔn)備時數(shù)確實可以提高成績”的知識。
而“智能”則是指在特定情境下明智地應(yīng)用知識,做出明確的、基于經(jīng)驗和判斷的決策。老師如果知道準(zhǔn)備時數(shù)可以提高同學(xué)成績,那么老師要如何進(jìn)行課程和活動的安排,在不增加同學(xué)壓力和負(fù)擔(dān)的狀況下提高他們準(zhǔn)備的時數(shù)呢?在實際的情境下妥善應(yīng)用知識,就是智能。通過以上的描述,我們知道,以數(shù)據(jù)為基礎(chǔ),從數(shù)據(jù)出發(fā),可以解決很多問題。
經(jīng)常和數(shù)據(jù)一起同時被提到的是“演算法”(Algorithm),演算法指的是一系列用于解決特定問題或執(zhí)行特定任務(wù)的指令或步驟,例如:線性回歸、決策樹、深度學(xué)習(xí)等。把數(shù)據(jù)加上演算法加上計算(訓(xùn)練與預(yù)測)就形成了“模型”(Model),模型可以用來描述或預(yù)測新的事物,例如:線性回歸模型、決策樹模型、深度學(xué)習(xí)模型等。
大數(shù)據(jù)是數(shù)據(jù)驅(qū)動時代下的產(chǎn)物
數(shù)據(jù)非常有用,數(shù)據(jù)通過演算法的訓(xùn)練形成的模型尤其有用??墒潜挥脕碛?xùn)練模型的數(shù)據(jù)是基于樣本,而樣本有質(zhì)與量的問題,所以就會產(chǎn)生誤差。而經(jīng)過科學(xué)家長期的研究發(fā)現(xiàn),在數(shù)據(jù)品質(zhì)可以確保的前提下,數(shù)據(jù)量越大,某一個變量對于預(yù)測的結(jié)果造成的影響越小,白話文就是數(shù)據(jù)越多,結(jié)果越準(zhǔn),這在數(shù)學(xué)上稱為“切比雪夫不等式”。在實際上,少量的數(shù)據(jù)搭配復(fù)雜的模型,對于結(jié)果預(yù)測的準(zhǔn)確度,往往不如大量的數(shù)據(jù)搭配簡單的幾個模型,后者也是現(xiàn)代數(shù)據(jù)驅(qū)動方法的基礎(chǔ),數(shù)據(jù)驅(qū)動是目前IT領(lǐng)域解決問題主流的方法,也是大數(shù)據(jù)興起的原因。
大數(shù)據(jù)不僅僅指的是數(shù)據(jù)的規(guī)模大,它也意味著數(shù)據(jù)有“多維度”和“完備性”,某些情況下,它也有“即時性”的意涵。所謂“多維度”,指的是一筆數(shù)據(jù)有多個維度的數(shù)據(jù),例如:某個購物網(wǎng)站的一筆購買記錄,除了購買者與購買的商品之外,可能還同時記錄使用者購買的路徑、上站的裝置、做成決定所花的時間等數(shù)據(jù),由于數(shù)據(jù)是多維度的,可以分析的角度相對地就比較多,也更有機會產(chǎn)生特別的洞察。
所謂“完備性”,就是讓樣本數(shù)盡可能接近母體,著名的例子是谷歌當(dāng)年開發(fā)翻譯系統(tǒng)時,并沒有采用傳統(tǒng)在兩個語言間撰寫眾多的規(guī)則進(jìn)行轉(zhuǎn)譯的方法,而是在兩個語言間提供盡可能完備的翻譯讓系統(tǒng)學(xué)習(xí),而經(jīng)過實測后者確實取得了更好的效果。“即時性”不是大數(shù)據(jù)的必備條件,但在某些應(yīng)用上很重要,例如:導(dǎo)航系統(tǒng),如果沒有辦法即時取得路況的數(shù)據(jù)的話,那導(dǎo)航的功能根本無法運作。
大數(shù)據(jù)是在什么條件下形成的呢?主要的原因是網(wǎng)際網(wǎng)絡(luò)的興起與移動網(wǎng)絡(luò)時代的到來,讓我們有更多的渠道和設(shè)備收集數(shù)據(jù),并且在儲存與運算成本大幅降低的情況下,我們可以有效地利用這些數(shù)據(jù)。
簡單地說,世界充滿不確定性,大數(shù)據(jù)的本質(zhì)就是要用信息消除不確定性。前面說過,大數(shù)據(jù)是數(shù)據(jù)驅(qū)動時代下的產(chǎn)物,在數(shù)據(jù)品質(zhì)確保的前提下,數(shù)據(jù)越多,預(yù)測結(jié)果越準(zhǔn)確。
人工智能的來臨,是機器還是人類勝利?
人工智能早期的方法是模擬人類的行為,但因為缺乏突破,進(jìn)入了長期的低谷期,直到數(shù)據(jù)驅(qū)動的方法與大數(shù)據(jù)的出現(xiàn),讓智能問題變成了數(shù)據(jù)問題。最典型的例子就是阿爾法狗在圍棋上戰(zhàn)勝人類世界冠軍的例子,如果單單只是模擬人類下棋的思路,阿爾法狗是無法戰(zhàn)勝人類的。但阿爾法狗在模仿人類棋步的基礎(chǔ)之上,又使用強化學(xué)習(xí)與自己大量對奕,最終通過結(jié)合幾種不同的演算法與大量的數(shù)據(jù)戰(zhàn)勝了世界冠軍。
很多人說阿爾法狗戰(zhàn)勝世界冠軍是機器的勝利,但這其實是人類的勝利,因為在大數(shù)據(jù)、演算法、計算能力三者大幅進(jìn)化的帶動下,人工智能領(lǐng)域有了突破,進(jìn)入了全新的時代。所以當(dāng)我們在探索大數(shù)據(jù)這個領(lǐng)域時,必須了解到,大數(shù)據(jù)的意義不在于它能幫助我們把模型描述得更精準(zhǔn),也不在于幫我們把一些規(guī)律認(rèn)識得更深刻,它最大的意義是讓機器可以做到一些人類能做到的事,也就是驅(qū)動人工智能的突破。