很多年以前,企業每天都在想方設法,把手頭的數據用好。
錢來貨往,大數據和人工智能火起來之后,沉淀的數據一下子多了起來,如何管好+如何用好數據,成為大多數企業的難題。
數據發揮價值是近10-20年才有的概念,這就帶出了數據治理。
數據治理,是伴隨解決“糟心問題”而生的。
在數據開發的過程中,會冒出各種“糟心事兒”,五花八門(質量、效率、安全等方面)。
而數據治理的任務就是,對于這種“事兒”,來一個“消滅”一個。
有的問題三年五載都消除不了,那就(也)算(得)了(干)。
一直消除不了,就一直有“痛點”。
一般來說,數據治理研究的專家不會說得這么接地氣,而是會說:“保障數據準確、全面和完整,為業務創造價值,同時嚴格管理數據的權限,避免數據泄露帶來的業務風險。”
高層聽了頷首,員工聽了翻白眼。
而且數據治理不“接地氣”,工作就得“接地府”。
某位大型互聯網科技公司的研發負責人,和公司老總一起出差的時候,抓住時機,用全程航班的時間安利了一把“數據中臺”。
老總把知識點吸收得很好,很喜歡,把“組件化”“標準化”“不重復造輪子”都學會了,就安排研發負責人去推動。
閉門研究了一段時間后,研發負責人就拿出一個大圖,你干這個,他干那個。完全按照理想化的思路,來了個天翻地覆式的大改動,無異于重新設計。
很多管理層一看到這個“藍圖”都傻眼了,心里又氣又恨,臉上還佯裝笑容。
表面上夸創新,背地里和哥幾個關系好的,交換眼色,把手放在脖子上做了個橫刀一抹的動作。
數據中臺這塊蛋糕,關系到絕大部分數據資產的管理權限,你動了這塊蛋糕,也就是動了管理者們的核心利益。
對于各個部門、各事業群的一把手來說,這無疑相當于重新劃分“勢力范圍”。
你畫這個藍圖問過我的意見了嗎?
沒有的話,那可不行。
于是,“齊心協力”把那個研發負責人整下崗了。
最終,這位研發負責人,鎩羽而歸,離職而去。
數據中臺和數據治理是什么關系?
數據中臺是解決數據治理問題的方式之一,但不是唯一方式。
數據治理的概念20多年前就有了。
還有一個機構,叫做數據治理研究所(DGI)。
據該所的定義,數據治理就是為了確定一系列的原則和實踐,確保數據在其生命周期中的高質量。
之前,一聽到數據治理這四個字,人們的條件反射就是安全,管控,規章制度,條條框框。
說白了就是怎么樣確保數據安全。
普通員工一聽,這不關我的事,那是中高層的事。
公司里有資產放著不用,或者用不好,就是管理水平低,數據資產也一樣。
但是,數據越來越多,存儲和處理又很費錢。
有人開始思考:
怎么樣把數據作為一個服務提供出來,給整個公司的技術團隊,甚至說非技術團隊,用起來。
數據孤島,始終存在,員工想在公司里看到更多數據,成了一項情商測試。
得看人品,看關系。
兩個部門之間,即便一個部門的老板批了,對方部門的老板批了,提供數據的方式可能還是發郵件或者U盤拷貝,十分落后。
一些科技企業數據治理的主要“業績”,就是促進跨部門的數據合作和使用。
大部分傳統行業企業還沒有數據治理的意識。
即使萌生了一星半點意識,其目標也只停留在合法合規安全管控不出亂子。
甚至,不少傳統企業連“促進跨部門數據使用”這個意識都沒有。
典型的數據技術部門是什么呢?
比如,美團的數據科學與平臺部,京東零售下面的京東技術與數據中心,快手科技主站產品部下面的數據分析部。
百度科技的大數據部,以前級別挺高,現在在百度AI技術平臺體系內了。
經過數據治理的一番努力,以前唯有數據技術部門能用的數據,會有更多的部門能用。
以前用不了的數據,現在能用了。
但是,好處也不是白來的,權利和責任是對應的。
原來非數據部門、非技術部門沒權利去管理,同時也沒有義務去維護這些數據的質量。
現在不一樣了,有權利去用,也要有更大的責任,去維護數據質量。
負責數據治理的團隊,即使看到了“糟心問題”在某幾個團隊之間扯皮,也不能直接介入處理。
要把問題整理成“共通的痛點”,先給決策層做提案,做建議,然后才有下一步。
如此一來,很多數據治理問題,經年歷久,拖成了“冤案”。
短期還是依靠發郵件或者是U盤拷貝數據,如此這般,至少還能用上。
有些公司被逼做“數據治理”的動力,也是啟動數據治理的大背景,是數據質量存在問題。
比如數倉的及時性、準確性、規范性,數據應用指標的邏輯一致性等問題。
數據的質量影響到使用,不得不干。
過去,企業內部開發的大部分數據系統,是為了解決某一個業務的問題而開發的。
在開發數據系統的時候,并沒有考慮到將來這部分的數據資產要用在別處(其他業務、其他系統、其他領域所用)。
一段時間之后,別人用到這些數據的時候,不管從技術的性能,還是各種服務 SLA (服務級別協議)的角度來講,可用性都較低。
變化一定是越來越多的,比如說數據源從單一,變成了多個。
從一朵云到多云。
種類由關系型數據庫為主,變成文檔、圖像、視頻、聲音、時間序列。
比如REI是一個美國人喜愛的戶外用品零售商,REI使用Tableau整合了來自75個數據源的數據,使得REI可以分析完整的客戶體驗。
數據的使用從BI報表、看板、大屏,到ad-hoc商業分析、數據科學分析、機器學習應用。
還有,原來以數據倉庫為中心的技術棧相對簡單,只需要管好ETL的過程、存儲過程、查詢引擎、可視化,就可以了。
現在可好,技術棧爆炸式地增長,要管的東西掰著手指頭數不過來。
好的數據治理,能夠讓企業轉身就獲得新的商業模式。
Huel這家代餐食品公司就是這么說的,而且他們還說能夠以98%的準確率來預測一月份每天的銷售量(該公司業務特點是預測一月份銷量最難)。
無論出于何種無奈,數據治理遲早要做,極少數走得快的,甚至用上了“超級智能化”服務。
反正,窮的窮死,富的富死,還有很多企業焦慮得要死。
本文在創作過程中,采訪了楊薈博士,他是一位連續創業者,埃森哲中國數據科學和AI團隊創始人,現任某跨國快銷品公司數據和AI總監。