數(shù)據(jù)指標(biāo)兩方面內(nèi)容:數(shù)據(jù)指標(biāo)的工具產(chǎn)品與梳理過程的方法論。
個(gè)人對(duì)于數(shù)據(jù)指標(biāo)工具有這樣的區(qū)分,主要也是和個(gè)人的工作經(jīng)歷有關(guān)。之前做過數(shù)據(jù)開發(fā),在開發(fā)數(shù)據(jù)模型的時(shí)候,曾經(jīng)待過的一家企業(yè)也有過一個(gè)數(shù)據(jù)指標(biāo)系統(tǒng),當(dāng)時(shí)的數(shù)據(jù)指標(biāo)系統(tǒng),能夠?qū)崿F(xiàn)數(shù)據(jù)指標(biāo)的錄入,可以理解為Excel維護(hù)的信息,在線化的進(jìn)行維護(hù)。本來計(jì)劃下一步,在建模型的時(shí)候,都使用數(shù)據(jù)指標(biāo)系統(tǒng)里面管理的指標(biāo),在創(chuàng)建模型的時(shí)候以可視化的形式,下拉選擇在數(shù)據(jù)指標(biāo)系統(tǒng)里面管理好的指標(biāo),不允許手動(dòng)輸入模型字段,通過這種方式來保證所有建模的數(shù)據(jù)指標(biāo)統(tǒng)一。但是這件事情并沒有后續(xù),隨著時(shí)間也不了了之了。所以,現(xiàn)在每次聽到數(shù)據(jù)指標(biāo)系統(tǒng),第一反應(yīng)就是,這個(gè)數(shù)據(jù)指標(biāo)系統(tǒng),和我之前用的那個(gè)系統(tǒng)有什么區(qū)別那?也是想在創(chuàng)建數(shù)據(jù)模型的時(shí)候,不允許手動(dòng)輸入字段,通過下拉選擇,從而保證模型里字段的唯一性嗎?但是,有的數(shù)據(jù)指標(biāo)系統(tǒng),似乎又有數(shù)據(jù)查詢的能力。如果通過這個(gè)指標(biāo)系統(tǒng)能夠查詢數(shù)據(jù)的話,是不是就和上面說的是完全不同的兩個(gè)系統(tǒng)了?所以,個(gè)人就對(duì)數(shù)據(jù)指標(biāo)系統(tǒng)進(jìn)行了一個(gè)分類。(這個(gè)分類很個(gè)人,目前沒看到其他人這么分。)。這個(gè)分類就是,當(dāng)說數(shù)據(jù)指標(biāo)系統(tǒng)的時(shí)候,需要回答的第一個(gè)問題是:這個(gè)數(shù)據(jù)指標(biāo)系統(tǒng)是一個(gè)指標(biāo)口徑管理系統(tǒng),還是一個(gè)指標(biāo)數(shù)據(jù)查詢系統(tǒng)。指標(biāo)口徑管理系統(tǒng),是面向數(shù)據(jù)加工者的,即主要是數(shù)據(jù)加工者使用。是在開發(fā)之前確定好指標(biāo)名稱,口徑,取數(shù)方式等等,目的是讓開發(fā)的數(shù)倉模型更加規(guī)范化??梢岳斫鉃橐粋€(gè)在線的Excel,如果沒有這個(gè)系統(tǒng)的話,指標(biāo)信息的收集、保存都是通過Excel來完成。
指標(biāo)數(shù)據(jù)查詢系統(tǒng),是面向數(shù)據(jù)消費(fèi)者的,即主要是數(shù)據(jù)消費(fèi)者使用。是讓數(shù)據(jù)消費(fèi)者能夠更好的找到指標(biāo),并使用指標(biāo)查詢分析指標(biāo)數(shù)據(jù),甚至,想要直接通過指標(biāo)數(shù)據(jù)查詢之后,和BI可視化系統(tǒng)做關(guān)聯(lián),生成報(bào)表。目的是加速數(shù)據(jù)消費(fèi)者的數(shù)據(jù)消費(fèi),統(tǒng)一指標(biāo)口徑,是一種數(shù)據(jù)消費(fèi)的形式。這兩個(gè)其實(shí)是完全不同的兩個(gè)系統(tǒng),或者說完全不同的內(nèi)容。
在上面也簡單說了,指標(biāo)口徑管理系統(tǒng),是一個(gè)在線的指標(biāo)信息維護(hù)系統(tǒng),保存的是梳理好的各個(gè)指標(biāo)字段,算是一個(gè)指標(biāo)庫,它只保存最終的指標(biāo)信息。而在指標(biāo)梳理過程中,個(gè)人感覺仍舊是使用Excel更加方便、靈活一些。
這種在線版的指標(biāo)口徑管理系統(tǒng)有一個(gè)比較大的問題,就是除了一個(gè)在線Excel,起到一個(gè)指標(biāo)口徑保存的作用之外,怎么進(jìn)一步的去使用這些指標(biāo)是個(gè)大問題。
目前想到的一種使用方式就是在建模型的時(shí)候,都使用指標(biāo)口徑管理系統(tǒng)里面管理的指標(biāo),在創(chuàng)建模型的時(shí)以可視化的形式,下拉選擇已經(jīng)管理好的指標(biāo),不允許手動(dòng)輸入字段創(chuàng)建模型。通過這種方式來保證所有建模的數(shù)據(jù)指標(biāo)名稱統(tǒng)一。但是,這種形式幾乎不可行,如果要使用這種可視化建表的形式,則需要禁掉通過SQL創(chuàng)建表的權(quán)限。讓所有的表,在創(chuàng)建、修改時(shí),都使用可視化的形式。這種形式如果遇到幾百個(gè)字段,都下拉選擇,那么在交互形式上,在創(chuàng)建效率上,都是不可行的。而且,即使使用下拉在創(chuàng)建時(shí)選擇了已經(jīng)固定的指標(biāo)。但是,指標(biāo)名稱統(tǒng)一,并不意味著指標(biāo)口徑就統(tǒng)一了。在兩個(gè)選取了同一指標(biāo)的模型中,維度設(shè)置的不同,那么雖然名字一樣,口徑仍然是不同一的??趶浇y(tǒng)一,意味這名稱、粒度、維度等等的多種統(tǒng)一,下拉建表的形式并不能達(dá)到這個(gè)效果。這些在指標(biāo)口徑管理系統(tǒng)管理下的一個(gè)一個(gè)的數(shù)據(jù)指標(biāo)中也沒有辦法體現(xiàn)。所以,即使采用上面說的建模形式,最終起到的效果也有限。且不說上面的形式會(huì)大大的限制開發(fā)的效率和靈活性。這就是指標(biāo)口徑管理系統(tǒng)的困境,似乎只能做一個(gè)指標(biāo)信息保管庫。沒有特別明確的場景,來進(jìn)一步使用。可能,能夠在建模時(shí),進(jìn)行字段命名時(shí),提供一些命名的思路。如果,提供命名思路的話,指標(biāo)口徑管理系統(tǒng),還需要有一個(gè)對(duì)應(yīng)縮寫清單。什么樣的中文,對(duì)應(yīng)什么樣的英文,對(duì)應(yīng)什么樣的縮寫。在建模的時(shí)候能夠參考這個(gè)清單,來確保建模的通用可讀性。所以,結(jié)論就是,個(gè)人認(rèn)為指標(biāo)口徑管理系統(tǒng)的使用場景有限。
“指標(biāo)數(shù)據(jù)查詢系統(tǒng)”,一般又都叫做指標(biāo)平臺(tái)。后續(xù)如果沒有特殊的區(qū)分,那么指標(biāo)平臺(tái)就是指“指標(biāo)數(shù)據(jù)查詢系統(tǒng)”。
當(dāng)說起指標(biāo)平臺(tái)的來源的時(shí)候,其實(shí)還和BI系統(tǒng)有一定的關(guān)系。可以通過BI系統(tǒng)的演化路徑,來關(guān)聯(lián)出指標(biāo)平臺(tái)。(不可否如BI可視化,是數(shù)據(jù)應(yīng)用中的一個(gè)大頭。)
我們先看看BI系統(tǒng)的一個(gè)演化路徑,通過BI系統(tǒng)的演化路徑,來看看為什么需要一個(gè)指標(biāo)平臺(tái)。
BI系統(tǒng)一共有幾代,這個(gè)也沒有一個(gè)唯一的標(biāo)準(zhǔn),個(gè)人認(rèn)為到現(xiàn)在是三代:第一代:傳統(tǒng)式BI、自助式BI、Headless BI。
個(gè)人認(rèn)為,ChatBI或者智能BI,僅僅是一種交互形式的增強(qiáng),本質(zhì)上沒有什么變化。
第一代:傳統(tǒng)式BI
此時(shí),數(shù)據(jù)指標(biāo)都保存在數(shù)據(jù)倉庫中。(此時(shí)數(shù)據(jù)倉庫可以理解為在Oracle或者M(jìn)ySQL上面構(gòu)建的一個(gè)數(shù)倉)。而傳統(tǒng)式BI只負(fù)責(zé)展示。代表產(chǎn)品:SAP BusinessOjects,IBM Cognos,OBIEE,MicroStrategy。依賴 IT 人員開發(fā)固定報(bào)表,靈活性差。
這種傳統(tǒng)BI,基本上和傳統(tǒng)的數(shù)倉相結(jié)合,是在大數(shù)據(jù)生態(tài)繁榮起來之前的一個(gè)BI解決方案。整個(gè)數(shù)據(jù)倉庫的加工,BI報(bào)表的制造都是有IT部門來承擔(dān)。業(yè)務(wù)人員只是使用最終加工好的報(bào)表。有新的需求也是再提給IT人員,由IT人員再進(jìn)行加工調(diào)整。
第二代:自助式BI
業(yè)務(wù)人員可自助分析,但指標(biāo)口徑分散在 BI 工具中。現(xiàn)在,自助式BI產(chǎn)品是一個(gè)較為主流的BI解決方案,不管是各個(gè)云廠 商還是國內(nèi)的BI公司,基本都是自助式BI。傳統(tǒng)式BI主要問題是什么?是靈活性不足,所有的BI報(bào)表展示需求都 需要統(tǒng)一 提交給IT部門,由IT部門來制作。所以,自助式BI也主要是想解決傳統(tǒng)式BI的靈活性的問題。因?yàn)槭亲? 助式BI,所以BI報(bào) 表的制造就不再歸由IT部門來承擔(dān)了。而是讓各個(gè) 業(yè)務(wù)線的業(yè)務(wù)人員能夠自助的創(chuàng)建BI。隨著自助創(chuàng)建BI能力一同下放 的還有數(shù)倉里面的一表權(quán)限,也被下放給業(yè)務(wù)人員了。此時(shí),自助式BI里面展示的數(shù)據(jù)指標(biāo),主要是將下放給業(yè)務(wù)人員表, 加載在自助式BI系統(tǒng)中,生成數(shù)據(jù)集,在數(shù)據(jù)集的基礎(chǔ)上進(jìn)行展示。 數(shù)據(jù)集也會(huì)進(jìn)行一定程度的加工,生成新指標(biāo)。代表 產(chǎn)品:Tableau、帆軟等。
|
|
|
---|---|---|
|
|
|
|
|
|
|
|
|
這里可能會(huì)有一個(gè)疑問,第三代是否可以直接在數(shù)據(jù)倉庫上構(gòu)建BI,讓數(shù)據(jù)倉庫承擔(dān)統(tǒng)一數(shù)據(jù)指標(biāo)的定位。理論上可行,實(shí)際上不行。一方面,就是存儲(chǔ)介質(zhì)不同,大數(shù)據(jù)時(shí)代的數(shù)據(jù)倉庫存儲(chǔ)介質(zhì)一般查詢較慢,而BI類產(chǎn)品又需要能夠較快的返回結(jié)果。
另一方面,就是有統(tǒng)一指標(biāo)需求的公司,現(xiàn)實(shí)情況下的數(shù)據(jù)倉庫已經(jīng)龐大的無從下手了,能夠從頭再來,有一個(gè)干凈的指標(biāo)層是一個(gè)更好的選擇。但是,反過來說,個(gè)人認(rèn)為這種情況也一定程度上,意味著數(shù)據(jù)治理或者數(shù)據(jù)管理本身已經(jīng)失敗了,已經(jīng)沒有辦法在數(shù)倉層面來做到數(shù)據(jù)指標(biāo)的統(tǒng)一了。
指標(biāo)平臺(tái)的由來,就是為了解決業(yè)務(wù)自助分析時(shí)的指標(biāo)不一致問題的。是在數(shù)據(jù)倉庫和上層應(yīng)用之間,增加的新的一層。即可完整的實(shí)現(xiàn)指標(biāo)的規(guī)范化開發(fā)管理,也能解決指標(biāo)口徑不一致的問題。同時(shí),通過調(diào)整存儲(chǔ)介質(zhì),解決指標(biāo)查詢性能問題。
第一個(gè)沖突就是,如何讓指標(biāo)平臺(tái)和自助式BI平臺(tái)之間進(jìn)行兼容。
因?yàn)樽灾紹I的成熟,現(xiàn)在大部分企業(yè)均采購一套BI產(chǎn)品,這就注定了沒辦法通過企業(yè)內(nèi)部自研來解決這個(gè)兼容問題,所以,只能等采購的BI系統(tǒng)在能力升級(jí),拋棄將表導(dǎo)入生成數(shù)據(jù)集這種形式,而是直接引用第三方數(shù)據(jù)集的形式了。
如果重頭自研一套BI系統(tǒng),那么成本時(shí)間又是非常大的了。
第二個(gè)沖突就是和開發(fā)過程的沖突。
這個(gè)在之前的章節(jié)中也介紹過,一般的數(shù)據(jù)開發(fā)過程為“數(shù)據(jù)導(dǎo)入--數(shù)據(jù)加工--數(shù)據(jù)應(yīng)用”??梢钥吹剑@個(gè)過程中,數(shù)據(jù)消費(fèi)者是直接使用最終的加工產(chǎn)物的,僅僅消費(fèi)數(shù)據(jù),而不會(huì)產(chǎn)生新的數(shù)據(jù)。
而指標(biāo)平臺(tái)一般還會(huì)承諾,導(dǎo)入基礎(chǔ)指標(biāo),能夠進(jìn)行復(fù)合指標(biāo)的加工生產(chǎn),這就承擔(dān)了一部分?jǐn)?shù)據(jù)加工的能力了。
所以就有一個(gè)邊界的問題了。哪些數(shù)據(jù)在數(shù)據(jù)倉庫中進(jìn)行加工?哪些 數(shù)據(jù)在指標(biāo)平臺(tái)中進(jìn)行加工?會(huì)不會(huì)出現(xiàn)同一個(gè)指標(biāo),即在數(shù)據(jù)倉庫 加工了,又在指標(biāo)平臺(tái)加工一遍的問題?上面兩個(gè)沖突,就是指標(biāo)平臺(tái)在落地時(shí)和現(xiàn)狀的實(shí)際問題,是需要解決的。
既然上面說到指標(biāo)的沖突,那么,如果要讓指標(biāo)平臺(tái)能夠在企業(yè)內(nèi)順利落地就需要解決上面提到的兩個(gè)沖突。
第一個(gè)沖突:和現(xiàn)有自助式BI的沖突
解決這個(gè)沖突,可以是等待自助式BI能夠更加靈活的和指標(biāo)平臺(tái)這一層進(jìn)行關(guān)聯(lián),而不使用導(dǎo)入內(nèi)部自建數(shù)據(jù)集這種形式。只要自助式BI升級(jí)了這個(gè)能力,問題就解決了。
也可以自研一套自助式BI,不用等現(xiàn)有的BI廠商的升級(jí)。當(dāng)然,這個(gè)成本就高許多了。
你覺得哪種方案合適?
或者,可以直接跳過BI系統(tǒng),直接采購指標(biāo)平臺(tái),因?yàn)楹芏嘀笜?biāo)平臺(tái),除了定義和開發(fā)指標(biāo)外,也具有指標(biāo)應(yīng)用能力,支持簡單的指標(biāo)可視化,以及指標(biāo)拆解。這樣既可解決指標(biāo)規(guī)范化管理問題,也幫助企業(yè)節(jié)約了BI的軟件采購成本。不過也依賴于指標(biāo)平臺(tái)的數(shù)據(jù)應(yīng)用能力是否足夠,解決大部分可視化的問題,個(gè)人對(duì)這也是存疑的。而且,沒有BI平臺(tái)的話,需要有打破歷史慣性的魄力。
第二個(gè)沖突:和數(shù)據(jù)倉庫開發(fā)的邊界問題
個(gè)人認(rèn)為,這個(gè)問題就需要有一個(gè)統(tǒng)一的體系化的數(shù)據(jù)指標(biāo)目錄了,能夠在目錄中快速找到需要的指標(biāo),并能夠顯示對(duì)應(yīng)數(shù)據(jù)指標(biāo)所在的位置。通過所有的指標(biāo),來對(duì)應(yīng)出來存儲(chǔ)的邊界問題。
從而,讓指標(biāo)平臺(tái)能夠存儲(chǔ)所有的關(guān)鍵指標(biāo),作為一個(gè)數(shù)據(jù)指標(biāo)標(biāo)準(zhǔn)化的單一可信源。
上面兩個(gè)沖突的解決,都需要比較大的投入,所以本質(zhì)上當(dāng)前階段的指標(biāo)平臺(tái)的落地,個(gè)人還是比較悲觀的。但是,對(duì)于chatBI如果能夠有一個(gè)更加規(guī)范的指標(biāo)平臺(tái),來作為大模型的輸入,對(duì)于提升chatBI的準(zhǔn)確性又是有極大幫助的。所以,似乎這又是一個(gè)歷史的方向。很多時(shí)候,要做什么這件事情的決定是復(fù)雜的,可能做的時(shí)候還沒有想起楚,先做起來,邊做邊找路也可以。畢竟,先發(fā)占位也是一種思路。
在開篇的時(shí)候,就提到當(dāng)提到數(shù)據(jù)指標(biāo)工具的時(shí)候,會(huì)有這樣兩種劃分。
實(shí)際上現(xiàn)在大部分企業(yè)都想要一個(gè)指標(biāo)平臺(tái)(指標(biāo)數(shù)據(jù)查詢系統(tǒng)),但是第一步不是想的怎么打通和BI系統(tǒng)的對(duì)接鏈路,不是想怎么和現(xiàn)有的數(shù)據(jù)加工做定位區(qū)分,而是第一步想著先把有多少指標(biāo)給收集起來,在系統(tǒng)里面能夠查詢到。這就一下子變成了指標(biāo)口徑管理系統(tǒng)了。這些收集起來的指標(biāo)沒有和其他系統(tǒng)有聯(lián)動(dòng),甚至單純的做了登記的功能,完全沒有下一步的應(yīng)用了。這就是企業(yè)在做數(shù)據(jù)指標(biāo)系統(tǒng)的時(shí)候,可能面臨的一個(gè)問題,本質(zhì)上還是沒有分清楚兩者的定位。
不管哪種工具,是“指標(biāo)口徑管理系統(tǒng)”,還是“指標(biāo)數(shù)據(jù)查詢系統(tǒng)-指標(biāo)平臺(tái)”,其中添加的數(shù)據(jù)指標(biāo),都是已經(jīng)梳理好的指標(biāo),在添加指標(biāo)的過程中,都需要一個(gè)流程化的審批流,才能夠保證數(shù)據(jù)指標(biāo)的穩(wěn)定性。這兩個(gè)系統(tǒng)中,管理登記的數(shù)據(jù)指標(biāo),會(huì)在下一章中介紹的數(shù)據(jù)指標(biāo)體系的梳理過程,在指標(biāo)口徑管理系統(tǒng)中,指標(biāo)的創(chuàng)建、指標(biāo)的評(píng)審、指標(biāo)的廢棄等等流程,都是線上發(fā)起。且線上能夠留痕,一直進(jìn)行查詢,一直進(jìn)行升級(jí)。有的時(shí)候,這一部分和數(shù)據(jù)模型的發(fā)布審核過程類似,因?yàn)槟P偷男略觯彩切枰獙?duì)應(yīng)的數(shù)據(jù)管家進(jìn)行審核的。
上面介紹了兩個(gè)數(shù)據(jù)指標(biāo)工具,也表達(dá)了對(duì)這兩個(gè)工具的態(tài)度,不管是“指標(biāo)口徑管理系統(tǒng)”還是“指標(biāo)數(shù)據(jù)查詢系統(tǒng)-指標(biāo)平臺(tái)”,在現(xiàn)階段的落地情況,個(gè)人都是比較悲觀的。要不就是缺少下一步的應(yīng)用場景,要不就是和現(xiàn)有的現(xiàn)狀沖突較大。但是,尷尬的一點(diǎn)就是,數(shù)據(jù)指標(biāo)這樣重要的一個(gè)模塊,居然沒有一個(gè)特別好的工具來保證統(tǒng)一的管理。梳理過程使用簡單的excel或者腦圖來梳理,沒有特別好的工具。梳理結(jié)束之后,最終的指標(biāo)結(jié)果沒有一個(gè)特別好的保存位置。這不得不說還真是多少有點(diǎn)尷尬了。
本章主要介紹了數(shù)據(jù)指標(biāo)的相關(guān)工具,指出了數(shù)據(jù)指標(biāo)工具,有兩種形式,一種是面向開發(fā)的指標(biāo)口徑管理系統(tǒng),一種是面向數(shù)據(jù)應(yīng)用的指標(biāo)數(shù)據(jù)管理系統(tǒng),或者稱為指標(biāo)平臺(tái)。