<pre id="4gios"><button id="4gios"></button></pre>
    <kbd id="4gios"><wbr id="4gios"></wbr></kbd>
    
    
    • <samp id="4gios"></samp>
      <samp id="4gios"><th id="4gios"></th></samp>
    • 從經(jīng)驗(yàn)角度描述:在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點(diǎn)

      時間:2023-08-30 點(diǎn)擊:182次
      前言
      大數(shù)據(jù)時 代,作為數(shù)據(jù)的掌握者,我們不僅要更好地使用數(shù)據(jù),也要更好地管理數(shù)據(jù)。而數(shù)據(jù)倉庫正是這樣一套管理和組織數(shù)據(jù)的解決方案。
      本文試圖從一種經(jīng)驗(yàn)的角度來描述在數(shù)據(jù)倉庫建設(shè)中的會遇到的各種坑和需要注意的關(guān)鍵點(diǎn),希望以此幫助踏上數(shù)據(jù)倉庫之路的小伙伴們。
      注意:本文不會詳細(xì)地解釋數(shù)據(jù)倉庫的各個概念,亦不會給出各種示例代碼來闡述數(shù)據(jù)倉庫的建設(shè)細(xì)節(jié)。

      請理解數(shù)據(jù)倉庫和數(shù)據(jù)平臺的區(qū)別
      當(dāng)你開始建設(shè)數(shù)據(jù)倉庫之前,需要明白數(shù)據(jù)倉庫和數(shù)據(jù)平臺是兩個不同的概念,不要把搭建一套 hadoop + hive 的平臺叫數(shù)據(jù)倉庫,這是數(shù)據(jù)平臺的范疇。
      我們常說的數(shù)據(jù)倉庫不僅僅是指數(shù)據(jù)接入、數(shù)據(jù)存儲和數(shù)據(jù)計(jì)算,它也要包括數(shù)據(jù)治理、數(shù)據(jù)建模和數(shù)據(jù)挖掘。比如元數(shù)據(jù)管理、維度建模和 olap 分析,這些都是我們在建設(shè)數(shù)據(jù)倉庫時候要考慮的內(nèi)容。

      提前規(guī)劃你的數(shù)據(jù)倉庫
      數(shù)據(jù)倉庫是公司數(shù)據(jù)體系的核心模塊,數(shù)據(jù)倉庫可以做的不好,但是不能不做。
      因此,在數(shù)據(jù)體系設(shè)計(jì)的前期最好要有一定的規(guī)劃,即使最簡單的表和字段命名的規(guī)范也能帶來很大的收益。
      另外,從數(shù)據(jù)開發(fā)的角度出發(fā),在做各種臨時數(shù)據(jù)處理需求的時候也要有數(shù)據(jù)倉庫的思維,多嘗試抽象出來數(shù)據(jù)中間層,這樣對公司和對自己的成長都是有幫助的。

      實(shí)現(xiàn)輕量級的數(shù)據(jù)倉庫
      如果業(yè)務(wù)的快速發(fā)展不能留給你太多的時間來實(shí)現(xiàn)一個完善的數(shù)據(jù)倉庫,那么可以考慮在前期實(shí)現(xiàn)一個輕量級的數(shù)據(jù)倉庫,以盡可能小的成本帶來最大收益。關(guān)于這個輕量級的數(shù)據(jù)倉庫,建議優(yōu)先考慮如下幾個點(diǎn):
      1.明確數(shù)據(jù)分層
      2.確定可執(zhí)行的表和字段命名規(guī)范
      3.定期抽象出常用的中間表
      4.建設(shè)元數(shù)據(jù)管理系統(tǒng),或者建設(shè)文檔庫,提供中間表的文檔說明

      不要脫離業(yè)務(wù)場景
      做數(shù)據(jù)一定要記得貼近業(yè)務(wù),雖說會有很多臨時和重復(fù)需求,但卻能切實(shí)地創(chuàng)造價值。
      切記不要以為可以完全脫離業(yè)務(wù)去做一套數(shù)據(jù)倉庫,我們可以在數(shù)據(jù)倉庫的某個層次不以業(yè)務(wù)需求為導(dǎo)向來設(shè)計(jì),但是最終面向業(yè)務(wù)的數(shù)據(jù)一定會是和業(yè)務(wù)理解有關(guān)。

      文檔!文檔!
      數(shù)據(jù)倉庫建設(shè)的初期,要逐步沉淀出各種文檔,比如模型設(shè)計(jì)文檔、字段命名規(guī)范文檔、sql 開發(fā)規(guī)范文檔。文檔是數(shù)據(jù)倉庫沉淀的最直觀的一種體現(xiàn),這也是技術(shù)積累的一部分。
      最重要的是,如果元數(shù)據(jù)系統(tǒng)沒有成型,那就要把數(shù)據(jù)倉庫中間表的內(nèi)容沉淀到文檔中,盡量做到一表一文檔。這樣不管是從節(jié)約溝通成本的角度,亦或是增加團(tuán)隊(duì)積累,更或是完成 kpi 的角度考慮,都是有很大益處的。

      盡早布局?jǐn)?shù)據(jù)質(zhì)量管理
      請盡早布局?jǐn)?shù)據(jù)質(zhì)量管理的內(nèi)容,不要等到發(fā)生嚴(yán)重的數(shù)據(jù)事故后才注意到數(shù)據(jù)質(zhì)量問題。關(guān)于數(shù)據(jù)質(zhì)量監(jiān)控,如果沒有足夠的時間和精力做一套完整的系統(tǒng),可以先從以下幾個點(diǎn)入手,這樣至少能對自己有一層基本的保護(hù):
      1.核心數(shù)據(jù)每日數(shù)據(jù)量級監(jiān)控和告警
      2.重要業(yè)務(wù)指標(biāo)監(jiān)控和告警
      3.主要業(yè)務(wù)流程各階段數(shù)據(jù)的監(jiān)控和告警

      多使用視圖表
      多使用視圖表對外提供數(shù)據(jù)服務(wù),它可以有效地屏蔽業(yè)務(wù)方對最底層表結(jié)構(gòu)變更的感知,同時加強(qiáng)權(quán)限管理。
      如下場景可以多考慮使用視圖表:
      1.該表經(jīng)常會有加字段的需求
      2.該表的計(jì)算口徑會出現(xiàn)變化,需要并行跑多份數(shù)據(jù),某個時間點(diǎn)進(jìn)行表切換
      3.該表可能會對不同人或部門提供服務(wù),希望不同人或部門可讀的字段不同
      視圖表主要是來晚上表結(jié)構(gòu)變更、口徑修改和權(quán)限管理的場景,不要濫用而增加維護(hù)成本。

      考慮你的職業(yè)發(fā)展
      不要一直埋著頭搞 etl,可以搞半年或一年來了解大致的業(yè)務(wù)和技能,但不能長期這樣發(fā)展。現(xiàn)在開源平臺相對成熟,長時間搞 etl,會弱化自己的技術(shù)深度,如果再沒有數(shù)據(jù)挖掘相關(guān)的項(xiàng)目經(jīng)驗(yàn),很容易在以后得面試中被淘汰。
      因此,建議各位數(shù)據(jù)開發(fā)的小伙伴,如果你近一年的工作主要都是在用 sql 做 etl,那就要有一點(diǎn)危機(jī)意識,經(jīng)常反思一下自己是否有成長,核心競爭力是否有所提現(xiàn)。
      如果有些心虛,可以考慮在數(shù)據(jù)倉庫、數(shù)據(jù)挖掘或者核心平臺開發(fā)上下一些功夫。
      人人狠狠综合久久亚洲88| 99久久国产免费福利| 亚洲国产精品嫩草影院久久| 青青青青久久精品国产| 观看 国产综合久久久久鬼色 欧美 亚洲 一区二区 | 性做久久久久久久久| 久久精品国产亚洲AV忘忧草18| 老男人久久青草av高清| 午夜不卡888久久| 亚洲欧美一区二区三区久久| 国产一级持黄大片99久久| 久久亚洲精品国产精品婷婷| 亚洲精品乱码久久久久久久久久久久| 久久国产精品久久精品国产| 观看 国产综合久久久久鬼色 欧美 亚洲 一区二区 | 国内精品久久久久久久影视麻豆 | 无码国内精品久久综合88| 青青青青久久精品国产h| 浪潮AV色综合久久天堂| 久久婷婷色综合一区二区| 青青青国产精品国产精品久久久久| 欧美激情一区二区久久久| 久久精品成人免费国产片小草| 99国产精品久久| 精品久久久久久久无码 | 国产成人精品综合久久久久| 亚洲精品国精品久久99热| 亚洲国产精品久久久久婷婷老年| 狠狠色婷婷久久一区二区| 中文成人无码精品久久久不卡| 久久精品国产亚洲AV无码偷窥| 久久精品国产亚洲av高清漫画 | 综合久久国产九一剧情麻豆 | 狠狠色丁香久久婷婷综| 国产成年无码久久久久毛片| 无码日韩人妻精品久久蜜桃 | 777午夜精品久久av蜜臀| 午夜不卡久久精品无码免费| 久久九九精品99国产精品| 久久人人爽人人爽人人AV| 亚洲国产精品无码久久久蜜芽|