一、建模建模建模解??什么是什意思種建模?
數據幾乎總是用于兩個(gè)目的:操作記錄的保存和分析決策的制定。簡(jiǎn)單來(lái)說(shuō),中星( ?▽?)操作系統保存數據,型模型案分類(lèi)系統使用數據。例說(shuō)前者一般只反映數據的明對最新?tīng)顟B(tài),按單個(gè)(ge)記錄事??務(wù)處理;其優(yōu)化的建模建模建模解核心是更(′?`*)快地處理事務(wù)。后者往往反映數據一段時(shí)間的什意思種狀態(tài)變化,按大批量處理數據;其核心是中星高性能、多維處理數據。型模型案通常,例說(shuō)我們將操作系統簡(jiǎn)稱(chēng)為OLTP-在線(xiàn)事務(wù)處理,明對簡(jiǎn)稱(chēng)OLAP-在線(xiàn)分析處理。建模建模建模解
針對這兩種不同的什意思種數據用途,如何組織數據,中星更(geng)好地滿(mǎn)足數據的使用需求。這里涉及到數據建模。(′▽?zhuān)?)也(ye)就是說(shuō),設計一種數據組織模式(模型)來(lái)滿(mǎn)足不同的場(chǎng)景。在OLTP場(chǎng)景中,實(shí)體關(guān)系模型(ER)通常用于存儲,以解決事務(wù)處理中數據的冗余和一致性問(wèn)題。在OLAP場(chǎng)景(′?ω?`)中,有許多建模方法:ER模┐(′ー`)┌型、星形模型和多維模型。ヾ(′▽?zhuān)??以下是:
ER模型OLAP中的ER模型不同于OLTP中的ER模型。其本質(zhì)區別在于從企業(yè)的角(°o°)度抽象主題,而不是┐(′д`)┌針對特定業(yè)務(wù)流程的實(shí)體對象關(guān)系。
星模型星模型是關(guān)系數據庫中維度模型的實(shí)現。該模型表示,每個(gè)業(yè)務(wù)流(T_T)程都包括事實(shí)表、事實(shí)表存儲事件的數值測量,包括事件發(fā)生時(shí)的實(shí)際文本環(huán)境。這種類(lèi)似于星形的結(jie)構通常被稱(chēng)為星形連接。它關(guān)注用戶(hù)如何更快地完成需求分析,并具有良好的大規模復雜查詢(xún)響應性能。在星形模型的基礎上,雪花模型可以在復雜的場(chǎng)景中進(jìn)一步衍生出來(lái)。
多維模??型多維模型是維度模型的另一種實(shí)現。當數據加載到OLAP多維數據(ju)庫時(shí),這些數據的存儲索引采用了維度數據??所涉及的格式和技術(shù)。性能聚集或(′?`)預計算匯總表通常由多維數據庫引擎建立和管理。多維數據庫可以實(shí)現高性能查詢(xún),因為預計算、索引策略等優(yōu)化方法。
在這三種方法中,星型模型被廣泛使用,下面也重點(diǎn)介紹了這種方法。
二、維度建模。
2.1基本概念。
在建模過(guò)程中,涉及到許多概念。這里有一個(gè)場(chǎng)景來(lái)解釋它們。例如,在常見(jiàn)的電子商務(wù)訂單鏈接中,每個(gè)用戶(hù)提交訂單(僅限于一個(gè)項目),這與訂單??記錄相對應。
【業(yè)務(wù)流程】:下訂單。
【粒??度】:每個(gè)訂單(分為單??個(gè)項目)
【維度】:區域(′ω`)、年齡、渠道等(分析角度)。
事實(shí)/測量:訂單金額等(可用于分析的數據)
2.2建模步驟。
實(shí)現業(yè)務(wù)需求和數??據收集。
在開(kāi)始維度建模工作之前,我們需要了解業(yè)務(wù)需求和底層源數據的實(shí)際情況。通過(guò)與業(yè)務(wù)方??溝通,查看現有( ?° ?? ?°)報表,了解其基于關(guān)鍵性能指標、競爭性業(yè)務(wù)問(wèn)(′?ω?`)題、決策過(guò)??程,支持對需求目標的分析。同??時(shí),通過(guò)與數據庫系統專(zhuān)家溝通,可以了解訪(fǎng)問(wèn)數據的可行性。
選擇業(yè)務(wù)流程。
業(yè)務(wù)流程是組織的操作活動(dòng)。建立ヾ(′?`)?或獲得業(yè)務(wù)流(?????)程的性能測量,并將(╯°□°)╯其轉換為事實(shí)表中的事實(shí)。大多數事實(shí)表都關(guān)注某個(gè)業(yè)務(wù)流程的結( ?° ?? ?°)果。過(guò)程的選擇非常??重要,因為過(guò)程定義了特定的設計目標和粒度、維度和事實(shí)。
聲明粒度
聲明粒度是維度設計的重要步驟。粒度用于確定事實(shí)表中的行表示。在選擇維度或事實(shí)之前,必須聲明粒度,因為每個(gè)候選維度或事實(shí)必須與定義粒(′?`)度一致。當從給定的(de)業(yè)務(wù)流程中獲取數據時(shí),原子粒度是最低粒度。(╬?益?)強烈建議從關(guān)注原子粒度數據(′-ι_-`)開(kāi)始,??因為原子粒度數據可以承受意想不到的用戶(hù)查詢(xún)。
確認維度(描述環(huán)境)
維度提供了誰(shuí)、什么、何時(shí)、為什么、如何等背景。維度表包含了分析應用程序所需的過(guò)??濾和分類(lèi)事實(shí)的描述性屬性。??牢牢掌握事實(shí)表的粒度,可以區分所有可能的維度。
確認事(shi)實(shí)(用于測量)
事實(shí)上,涉及業(yè)務(wù)流程事件的測量基本上是基于數據值。事實(shí)表與根據事實(shí)表粒度描述的測量事件之間存在一對一的關(guān)系,因此事實(shí)表對(??-)?應于物理可觀(guān)察事件。在事實(shí)表中,所有事實(shí)只允許與聲明的粒度一致。
部署-星模型或多維模型。
選擇維度模型的著(zhù)陸方式。您可以??選擇星(′▽?zhuān)?)形模型,部署在關(guān)系數據庫上,通過(guò)事實(shí)表和主外關(guān)聯(lián)維度表;您也可以在多維數據庫中選擇多維模型。
2.3建模規范。
以維度建模為理論基礎,定義一系列??術(shù)語(yǔ)來(lái)描述建模對象。下圖摘自阿里巴巴大數據實(shí)踐之路。( ?▽?)
數據域
是指業(yè)務(wù)分析、業(yè)務(wù)流程或維度的抽象集合。在劃分???數據域時(shí),它不僅可以滿(mǎn)??足當前的所有業(yè)務(wù)需求,而且可以在進(jìn)入新業(yè)務(wù)時(shí)無(wú)影響地包含在現有的數據域中,并擴展新的數據域。
業(yè)務(wù)過(guò)程
指企業(yè)的業(yè)務(wù)活動(dòng),如下單、支付、退款等。請注意,業(yè)務(wù)流程是一個(gè)不可分割的行為事件。一般來(lái)說(shuō),業(yè)??務(wù)流程是企業(yè)活動(dòng)中的事件。
時(shí)間??周期
用于明確數據統計的時(shí)間范圍或時(shí)間點(diǎn),如最近30天、自然周、截止日期等。
修飾類(lèi)(?????)型
是修飾詞(′ω`)的抽象劃分,屬于某一業(yè)務(wù)領(lǐng)域。
修飾詞
指除統計維度外,指標的業(yè)務(wù)場(chǎng)景有限抽象。修飾詞屬于修飾類(lèi)型。
原子指標和測(??-)?量含義相同?;谀骋粯I(yè)務(wù)事件行為下的測量,是業(yè)務(wù)定義中不可分割的指標,具有明確業(yè)務(wù)含??義的術(shù)語(yǔ),如(ru)支付金額。
維度
維度是反映業(yè)務(wù)屬性的測量環(huán)境。這些屬性的集合構成了一個(gè)維度,也可(ke)以稱(chēng)為實(shí)體對象。維度屬于地理維度等數據域(包括擠壓國家、地區、省級和城市級內容)、時(shí)間維??度(包括年、季、月、周、日)。
維度屬性
派生指標
派生指標=原子指標+多個(gè)修飾詞(可選)+時(shí)間周期??梢岳斫鉃閷υ又笜藰I(yè)務(wù)統計范圍的定義。
三、設(????)計要點(diǎn)。
3.1維度表設計。
維度是維度建模的基礎和靈魂。在維度建模中,將測量稱(chēng)為事實(shí),并將環(huán)境描述為維度。維度是分析事實(shí)所需的多樣化環(huán)境。維度所包含的表示維度列稱(chēng)為維度屬性。維度屬性是查詢(xún)約束條件、分組和報告標簽生??成的基本來(lái)源,是數??據易用性的關(guān)鍵。維度的作用一般是查詢(xún)約束、分(??-)?類(lèi)匯總和排序。維度的設計過(guò)程是確定維度屬性的過(guò)程。如何生成維度屬性和維度屬性的優(yōu)缺點(diǎn)決定了維度使用(yong)的便利性,成為數據倉??庫易用性的關(guān)鍵。??正如Kimball所說(shuō),數據倉庫的(de)能力直接與維度屬性(???)的質(zhì)量和深度成正比。
在整個(gè)設計過(guò)程中,應遵循以下原則(ze):
盡可能豐富維度屬性(′_`),為數據的使用打下基??礎。
給出詳細而有意義的文字描述。
沉淀一般維度屬性,為建立一致(???)性維度鋪平道路。
通過(guò)使用??場(chǎng)景,嚴格區分事實(shí)和維度。
3.2事實(shí)表設計。
事實(shí)(shi)表作為數據倉庫維度建模的核心,緊密?chē)@業(yè)務(wù)流程進(jìn)行設計,通過(guò)獲取描述業(yè)務(wù)流程的測量??來(lái)表達業(yè)務(wù)流程,包括參考維度和┐(′ー`)┌與業(yè)務(wù)流程相關(guān)的測量。在設計過(guò)程中,您可以選擇不同類(lèi)型的事實(shí)表,它??們有自己的適用場(chǎng)景。
在整個(gè)設計過(guò)程中,應遵??循ヽ(′ー`)ノ以下原則:
選擇合適的事實(shí)表類(lèi)型。
事實(shí)盡可能完整,包括整個(gè)業(yè)務(wù)流程的所有事實(shí)。ヽ(′▽?zhuān)?ノ
可適當做一些維度退化屬性,提高事實(shí)表的查詢(xún)性能。
為了提高聚合性能,可以適度制作一些上卷??聚合事實(shí)表。
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提供信息存儲空間??服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 1817(′?`*)[email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除。
(作者:AI運營(yíng)推廣)