
搭建(′;ω;`)大數據分析平臺的淘寶臺有臺工作是循序漸進(jìn)的,不同公司要根據自身所處階段選擇合適的大數大數平臺形態(tài),沒(méi)有必要過(guò)分追求平臺的據分據分分析深度和服??務(wù)屬性,關(guān)鍵是析平析平能解決當下??的問(wèn)題。
如果說(shuō)用戶(hù)行為分析平臺是法方法互聯(lián)網(wǎng)行業(yè)(ye)等線(xiàn)上業(yè)務(wù)特有的數據分析產(chǎn)品,那么大數據分析平臺就是企業(yè)適用于全行業(yè)的數據分析產(chǎn)品。任何行業(yè)的目前公司(′?_?`)發(fā)展和精進(jìn)都離不開(kāi)數據分析,而大數據分析平臺就是實(shí)現實(shí)現數據分析,為業(yè)務(wù)人員提供分析能力的主有種基礎產(chǎn)品。如果沒(méi)有該數據分(fen)析平??臺,淘寶臺有臺企業(yè)則不得不招聘專(zhuān)業(yè)的大數大數數據分析師完成全部的數據分析工作。
一方面數據分析師(′?_?`)的據分據分招聘門(mén)檻更高,一方(fang)面數據分析師對實(shí)際業(yè)務(wù)??的析平析平了解程度也并不如運營(yíng)、市場(chǎng)等業(yè)務(wù)方人員。法方法
所以更合理的企業(yè)做法是為業(yè)務(wù)人員提供易用的數據分析產(chǎn)品,配合特定的數據分析培訓,以使業(yè)務(wù)??(wu)同事可自行完成絕大部分數據分析需求。同時(shí)輔以數名數據分析師完成更專(zhuān)業(yè)的數據分析任務(wù),產(chǎn)出數據報告或決(???)策等關(guān)鍵信息。
大數據分析平臺是對大數據時(shí)代的數據分析產(chǎn)品(或稱(chēng)作模塊)的泛稱(chēng),諸如業(yè)(ye)務(wù)報表、OLAP應用、BI工具等都屬于大數據分析平臺的(╯‵□′)╯范疇。與(′ω`)用戶(hù)行為分析平臺相比,其分析維度更集中在核心業(yè)務(wù)數據,特別是對于一些非純線(xiàn)上業(yè)務(wù)的領(lǐng)域,例如線(xiàn)上電商、線(xiàn)下零售、物流、金融等行業(yè)。而用戶(hù)行為分析平臺會(huì )更集中分析與用戶(hù)及用戶(hù)行為相關(guān)的數據。
企業(yè)目前實(shí)現大數據分析平臺的方法主要有三種:
(1)采購第三方相關(guān)數據產(chǎn)品
例如Tabl(′▽?zhuān)?)eau、Grヾ(′▽?zhuān)??owing IO、神策等。此類(lèi)產(chǎn)品能幫助企業(yè)迅速搭建數(′▽?zhuān)?據分析環(huán)境,不少第三方廠(chǎng)商還會(huì )提供專(zhuān)業(yè)的技術(shù)支持團隊。但選擇此方法,在統計數(shu)據的廣度、深度和準確性上可能都有所局限。例如某些主打無(wú)埋點(diǎn)技術(shù)的產(chǎn)品,只能(neng)統計到頁(yè)面上的一些通用(yong)數據。
隨著(zhù)企業(yè)數據化運營(yíng)程度的加深,這類(lèi)產(chǎn)品可能會(huì )力不從心。該方案適合缺少研發(fā)資源、數據運營(yíng)初中期的(de)企業(yè)。一般一些創(chuàng )業(yè)公司、小微企業(yè)可能會(huì )選擇此方案。
(2)利用開(kāi)源產(chǎn)品搭建大數據分析平(ping)臺
對于中大型公司,在具備足夠研發(fā)實(shí)力的情況下,通常還是會(huì )自己開(kāi)發(fā)相關(guān)的數據產(chǎn)品。自建平臺的優(yōu)勢是不言而喻的,企業(yè)可以完全根(gen)據自身業(yè)務(wù)需要定制開(kāi)??發(fā),能夠對業(yè)務(wù)需求進(jìn)行最大化的滿(mǎn)足。
對于平臺型業(yè)務(wù),開(kāi)發(fā)此類(lèi)產(chǎn)品也可以進(jìn)行對外的商業(yè)化,為平臺上的B端客戶(hù)服務(wù)。例如淘寶官方推出的生意參(can)謀就是這樣一款成熟的商用數據分析產(chǎn)品,且與淘寶業(yè)務(wù)和平臺優(yōu)勢有非常強( ?▽?)的??結合。
接下來(lái),本篇將重點(diǎn)介紹幾種不同階段的大數據分析平臺產(chǎn)品形態(tài)。
報表分析平臺
在平臺搭建初期,優(yōu)先實(shí)現重要的固化報表沒(méi)有任何問(wèn)題,但隨著(zhù)業(yè)務(wù)ヽ(′?`)ノ的發(fā)展,對數據分析的需求會(huì )成倍增加,不可能一直靠業(yè)務(wù)新增查詢(xún)需求,數據團隊對前后端進(jìn)行開(kāi)發(fā)改動(dòng)這種低效的方式來(lái)實(shí)現。
因此我們可以在報表平臺上開(kāi)發(fā)一套擴展工具,用??于完成對取數需求的條件配置。本質(zhì)上是將日常業(yè)??務(wù)查詢(xún)的SQL語(yǔ)句進(jìn)??行了產(chǎn)品化,并羅列了可支持的數據指標、維度、時(shí)間等信息。
至此,報表平臺便擁有了直接新增報(′?_?`)表的功能,業(yè)務(wù)人員可根據自身需求在平臺上配置所需的報表,而不用每次由研發(fā)團隊單獨開(kāi)發(fā)。例如下圖是生意參謀中的新建報表功能,商家可以通過(guò)一系列的條件選擇完成報表的配置。
生意參謀-新(xin)建報(?⊿?)表
除去簡(jiǎn)單的報表生成,我們(′▽?zhuān)?還可以擴展圖表模塊,對報表進(jìn)行可視化??梢赃x擇常見(jiàn)??的圖表樣(yang)式,例如折??線(xiàn)圖、柱狀圖、餅??圖等。
不過(guò)受限于產(chǎn)品(/ω\)形態(tài),所有的配置操作都是在既定的框架下完成的,??研發(fā)人員需要事先在頁(yè)面上規定可選的維度、時(shí)間周期(qi)、指標的信息。若遇到對當前頁(yè)面還不支持的指標或??維度的分析需求(在實(shí)際使用時(shí)會(huì )經(jīng)常發(fā)生),仍需要進(jìn)行ヽ(′ー`)ノ開(kāi)發(fā),升級平臺。為了滿(mǎn)足更定制化的查詢(xún)需求,該平臺也可以??做到支(′_ゝ`)持書(shū)寫(xiě)??SQL完成查詢(xún)。
某種程度上來(lái)看,其實(shí)該階段的分析平臺對業(yè)務(wù)人員還不夠友好,可能更多時(shí)候是數據產(chǎn)品經(jīng)理和數據分析師在進(jìn)??行使用,以滿(mǎn)足自身分析需求或承接業(yè)務(wù)的數據需求。為了真正讓業(yè)務(wù)人員直接具備查詢(xún)、分析數據的能力(li),我們需要進(jìn)入下一個(gè)階段。
自助分析平臺
如果說(shuō)擴展后的報(bao)表平臺能很大程度的釋放研發(fā)生產(chǎn)力的話(huà),(T_T)搭建自助分析平臺將可以解放(′_`)數據分析師的大量工作。自助分析平臺已經(jīng)基本能滿(mǎn)足業(yè)務(wù)人員的全部數據查詢(xún)和分析需求了。當然,在平臺上線(xiàn)后還是需要組織適當的培訓,提供友好的產(chǎn)品說(shuō)明文檔。
自助分析平臺是進(jìn)一步將我們的數據查詢(xún)、分析語(yǔ)言產(chǎn)品化。與報表平臺相比,自助分析平臺至少有了以下進(jìn)步:
可以選擇數據源,可( ?ヮ?)以在權限允許范圍內訪(fǎng)問(wèn)數據源內全量的數據,并讀取數據源的數據結構,用于后續的(╯°□°)╯︵ ┻━┻查詢(xún)配置。例如定位到具體的數據倉庫。( ?ヮ?)可以自由選擇數據指標和維度,構建Cube。即可??以自由地選擇不同主題下的維度,作為表格的行和列(lie)。行和列都支持維度的嵌套,構建層次化的索引。支持豐富的指標計算方式(′?`)。與用戶(hù)行為分析平臺類(lèi)似,自助分析平臺也支持通過(guò)表達式對基礎指標進(jìn)行計算,構建新的指標。在輸出結果時(shí),也可以制定對指標的聚合方式,包括求和(SUM)、求平均(AVG)、累計??求和(CUMSUM)、計數(C??OUNT)、求最大值(MAX)、求最小值(MIN)等常見(jiàn)的計算方式。支持豐富的條件篩選。包括了最(′ω`)常用的時(shí)間段篩選,以及可在各個(gè)維度下通(tong)過(guò)一系列關(guān)鍵字組合設置篩選條件,例如大于(>)、等于(=)、小??于(<)、不等于((′▽?zhuān)?!=)、在或不在某列表內(IN/NOT IN),在或不在某范圍內(BETWEE???N…AND…/NOT BETWEE(′_ゝ`)N…AND…)??筛鶕I(yè)務(wù)需求開(kāi)發(fā)其他針對表達格式的配置選項,例如可配( ?° ?? ?°)置??數據的表??達形式是整數、小數(及位數)、百分數等。下圖是筆者過(guò)去搭建的某自主分析平臺產(chǎn)品的簡(jiǎn)易原型。
新建查詢(xún)
在完成查詢(xún)條件的篩選后,會(huì )構建出如下表格。同一維度下的查詢(xún)字段會(huì )構建層次化(hua)索引,不同維度下的查詢(xún)字段會(huì )類(lèi)似concat連接在一起??。
查詢(xún)結果
自助分析平臺的另一個(gè)優(yōu)勢是可直接根據數據生成各式的圖表,典型的折線(xiàn)圖、柱狀圖、堆積面積圖、直方圖、餅圖、散點(diǎn)圖等,以及(′▽?zhuān)?)根據業(yè)務(wù)需求可以支持漏斗圖或基于GIS信息的圖表等。
在線(xiàn)智能分析平臺
自助分析平臺雖然(ran)功能強大,但其本質(zhì)上仍是構建數據表格的工具。業(yè)務(wù)人員更自然的使用方式是利用(yong)平臺構建表格并導出,之后在Excel進(jìn)行分析和圖表的制作,這其實(shí)違背了??我們希望??平臺本身能解決數據分析問(wèn)題的初衷。這一方面是因為用戶(hù)的習慣很難改變ヾ(′?`)?,另一方面也是平臺構建表格的屬性引導了用戶(hù)。
若要通過(guò)平臺直接完成數據分析,這就要求平臺不能只是構建表格這么簡(jiǎn)單。我們需要重點(diǎn)優(yōu)化平臺的數據表達和交互功能,以體現出(╯°□°)╯︵ ┻━┻平臺的分析屬性。這個(gè)階段可以稱(chēng)為在線(xiàn)智能分析平??臺。這里的關(guān)鍵詞有兩個(gè):“在線(xiàn)”和“智能”。
其進(jìn)步表現在可以直接在構建完的數據之上進(jìn)行交互,產(chǎn)生更多的數據洞察。類(lèi)似于我們在python中直接通過(guò)matplot或seaborn進(jìn)行可視化,和利用bokeh進(jìn)行數據表達的區別。雖然seaborn已經(jīng)可以做出優(yōu)秀的可視化報告,但其表達形式主要還是(╯°□°)╯靜態(tài)圖表,更多時(shí)候是展現(xian)在分析報告中。而bokeh構建的圖表支持一系列的交互操作,不同使用人員可根據自身需求在圖表上完成分析。(????)
最典型的區別,有以下幾點(diǎn):
(1)支持圖表的基本交互( ?ω?)操??作
(2)支持數據(ju)的下鉆
選中具體數據后,可根據所支持的維度進(jìn)行數據下鉆。例如我們發(fā)現某天的GMV下降明顯,選中當天數據后可以根據GMV在業(yè)務(wù)上定義的構成指標(訂單量、客單價(jià)等)或其他查詢(xún)維度(門(mén)店/類(lèi)目等)進(jìn)行下鉆以定位具體問(wèn)題??赡茏?zui)終會(huì )發(fā)現是某家重點(diǎn)門(mén)店當天經(jīng)營(yíng)異常而導致了整體GMV的下降。
(3)支持數據間的聯(lián)動(dòng)
根據分析需求,(╥_╥)我們可能需要??同時(shí)ˉ\_(ツ)_/ˉ分析有關(guān)聯(lián)關(guān)系的數據,洞察數據間的關(guān)系或影響。其核心是以某一字段作為關(guān)聯(lián)圖表或表格的關(guān)聯(lián)字段,建立多份數據間的聯(lián)系。這樣在同一個(gè)工作區內,對其中任意一份數據進(jìn)行圈選、拖拽等操作,在其他的數據中也會(huì )同步展示。
例如A表是SKU信息表,B表是訂??單詳情表,C表( ?▽?)是商( ?▽?)品銷(xiāo)量的圖??表,商品運營(yíng)同事在分析具體SKU銷(xiāo)售情況時(shí),會(huì )在A(yíng)表中選中(zhong)具體的??SKU,在??B表中為自動(dòng)選出??包含該SKU的訂單,在C表中會(huì )自動(dòng)選出該SKU的銷(xiāo)量情況。
在這些功能的支撐下,我們便可以直接在平臺上在線(xiàn)完成大部分數據分析的工作,而不用導出數據后在其他工具中進(jìn)行分析。
根據數據分析的方法和目的,我們可以簡(jiǎn)單的劃分為三類(lèi):描述性分析、預測性分析和規范性分析。
描述性分析給出的數據表現的客觀(guān)事實(shí);預測性分析會(huì )基于過(guò)去的數據預測未來(lái)表現和可??能性;規范(′;д;`)性分析會(huì )通過(guò)分析提供指導?和建議,就像醫生會(huì )對我們的體檢報(bao)告標注出異常并給出建議。
而在線(xiàn)智能分析平臺的“智能”也可以體現在對數據的診斷解讀上。一方面業(yè)務(wù)人員的數據分析水平可能參差不齊,無(wú)法要求所有人都有專(zhuān)業(yè)的分析能力,另一方面我們查看數據的主要目的也是想洞察數據背后的結論,而不ヽ(′▽?zhuān)?ノ是數據本身。因此平臺如果可以針對數據表現直接給出解讀,將大大提升平臺的服務(wù)屬性。
平臺可以對核心指標的異常范圍進(jìn)行定義,比如可利用3σ原則,即對于服從正態(tài)分布的數據,具體數值與整體(′;д;`)平均值的差值大于3倍標準差時(shí),可認定為異常值。也可以與業(yè)務(wù)進(jìn)(′?`)行溝通,定義數據的異??常波動(dòng)范圍。
針對不同的異常情況,可以提示(shi)不同的話(huà)術(shù),并匹配建議方案。例如下圖是筆者過(guò)去負責的某款數據產(chǎn)品中,對具體(ti)指標給出的診斷解讀。對于不具備分析能力或時(shí)間寶貴的同學(xué),直接概覽此模塊,就能對當前的經(jīng)營(yíng)情況有個(gè)大致了解。
數據診斷解讀
數據分析自( ?▽?)動(dòng)化
對大數據??分析平臺用戶(hù)的需求進(jìn)行深挖,我們會(huì )發(fā)現不同用戶(hù)群所關(guān)注的數據也會(huì )(′;ω;`)有所不同,而同一??用戶(hù)往往會(huì )持續關(guān)注同一批數據。再想想,我們??的運營(yíng)人員、數據分析師等角色是不是每周或每月都會(huì )發(fā)送相關(guān)數據(′?`)的周報或月報?
可以認為,每個(gè)人在查看數據的時(shí)候,是在閱讀一份數據報告。
因此,平臺若能定周期產(chǎn)出符合目標用戶(hù)數據需求的,既有數據,又有洞察,帶有指導意義,且閱讀友好的數據報告,將能進(jìn)一步提升平臺自身的價(jià)值。
為了讓平臺可以自動(dòng)生成(cheng)報告,我們需要結合平臺之前的所有能力。用戶(hù)可以在平臺上配置適合自己及其他閱讀受眾的報告模板(組合相關(guān)的數據圖表及設置樣式),定義關(guān)鍵指標的解讀方法(定義數據波動(dòng)區間及對應話(huà)術(shù))。由系統給出(chu)解釋原因或預留備注空間由人工解釋。根據業(yè)務(wù)需要,配置報告的生成周期、發(fā)送對象、發(fā)送方式等信息。如下圖數據產(chǎn)品,每周會(huì )產(chǎn)出運營(yíng)數據簡(jiǎn)報。
數據運營(yíng)簡(jiǎn)報
對于不同的用戶(hù),還可以查看(kan)細分欄目的周報,例如下圖是客戶(hù)維度的周報。
客戶(hù)數據運(yun)營(yíng)周報
隨著(zhù)數據驅動(dòng)的(de)意識越來(lái)越被重視,且大量傳統行業(yè)開(kāi)始數字化轉型,大數據分析平臺在企業(yè)中扮演的角色會(huì )越來(lái)越重(╯°□°)╯要。
目前看到的情況是,大家對于大數據分析平臺的產(chǎn)品形態(tài)和發(fā)展趨勢的判斷基本是一致的。平臺最初用于解決基礎的數據查詢(xún)和分析需求,之后會(huì )逐步解放人力提升人效,最后我們都(dou)希望能由數據和機器直接生成決策。
當然,搭建大數(shu)據分析平臺的工(gong)作是(′_`)循序漸進(jìn)的,不同公司要根據自身所處階段選擇合適的平臺形態(tài),沒(méi)有必要過(guò)分追求平臺的分析深度和服務(wù)屬性,關(guān)鍵是能解決當下的問(wèn)題。
大數據分析平臺篇到此結束。