松江公司做网站,云适配 网站,常熟有没有做阿里巴巴网站,西安微信网站开发数据仓库数据集市事实维度级别数据清洗数据采集数据转换联机分析处理(OLAP OnlineAnalytical Processing )切片切块星型模式雪花模式粒度度量度量值口径指标 原子指标#xff1a;派生指标衍生指标标签自然键持久键代理键退化维度下钻上卷T0与T1数据挖掘数据科学家总线架构总线… 数据仓库数据集市事实维度级别数据清洗数据采集数据转换联机分析处理(OLAP OnlineAnalytical Processing )切片切块星型模式雪花模式粒度度量度量值口径指标 原子指标派生指标衍生指标标签自然键持久键代理键退化维度下钻上卷T0与T1数据挖掘数据科学家总线架构总线矩阵实体表事实表维度表之间的关系 维度表事实表实体表指标与标签的区别 概念不同构成不同分类不同维度和指标区别与联系自然键与代理键在数仓的使用区别
SKU与SPU SPU Standard Product Unit (标准化产品单元)SKUstock keeping unit(库存量单位)spu属性sku属性数据仓库相关术语
数据仓库
数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时变的。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确因为它必须在特定的时间基础上从操作环境中提取出来。
数据集市
数据仓库只限于单个主题的区域例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库或者当它们从操作系统中获取数据时就不依赖于数据仓库。
事实
事实是数据仓库中的信息单元也是多维空间中的一个单元受分析单元的限制。事实存储于一张表中当使用关系数据库时或者是多维数据库中的一个单元。每个事实包括关于事实销售额销售量成本毛利毛利率等的基本信息并且与维度相关。在某些情况下当所有的必要信息都存储于维度中时单纯的事实出现就是对于数据仓库足够的信息。
维度
维度是用来反映业务的一类属性这类属性的集合构成一个维度。例如某个地理维度可能包括国家、地区、省以及城市的级别。一个时间维度可能包括年、季、月、周、日的级别。
级别
维度层次结构的一个元素。级别描述了数据的层次结构从数据的最高汇总程度最大级别直到最低最详细级别如大分类-中分类-小分类-细分类。级别仅存在于维度内。级别基于维度表中的列或维度中的成员属性。
数据清洗
对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。
数据采集
数据仓库系统中后端处理的一部分。数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据。
数据转换
解释业务数据并修改其内容使之符合数据仓库数据格式规范并放入数据仓库的数据存储介质中。数据转换包括数据存储格式的转换以及数据表示符的转换如产品代码到产品名称的转换。
联机分析处理(OLAP OnlineAnalytical Processing )
OLAP是一种多维分析技术用来满足决策用户在大量的业务数据中从多角度探索业务活动的规律性、市场的运作趋势的分析需求并辅助他们进行战略发展决策的制定。按照数据的存储方式分OLAP又分为ROLAP、MOLAP和HOLAP。在客户信息数据仓库CCDW的数据环境下OLAP提供上钻、下钻、切片、旋转等在线分析机制。完成的功能包括多角度实时查询、简单的数据分析并辅之于各种图形展示分析结果。
切片
一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。
切块
一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。
星型模式
是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体典型内容包括指标数据、辐射数据通常是有助于浏览和聚集指标数据的维度。星形图模型得到的结果常常是查询式数据结构能够为快速响应用户的查询要求提供最优的数据结构。星形图还常常产生一种包含维度数据和指标数据的两层模型。
雪花模式
指一种扩展的星形图。星形图通常生成一个两层结构即只有维度和指标雪花图生成了附加层。实际数据仓库系统建设过程中通常只扩展三层维度维度实体、指标指标实体和相关的描述数据类目细节实体超过三层的雪花图模型在数据仓库系统中应该避免。因为它们开始像更倾向于支持OLTP 应用程序的规格化结构而不是为数据仓库和OLAP应用程序而优化的非格式化结构。
粒度
粒度将直接决定所构建仓库系统能够提供决策支持的细节级别。粒度越高表示仓库中的数据较粗反之较细。粒度是与具体指标相关的具体表现在描述此指标的某些可分层次维的维值上。例如时间维度时间可以分成年、季、月、周、日等。数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度将决定存储的数据能否满足信息分析的功能需求而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。
度量
度量是业务流程节点上的一个数值。比如
销量 价格 成本
等等。
事实表中的度量可分为三类
完全可加 半可加 不可加
。
完全可加的度量是最灵活最有用的比如说销量销售额等可进行任意维度汇总半可加的度量可以对某些维度汇总但不能对所有维度汇总差额是常见的半可加度量它除了时间维度外可以跨所有维度进行加法操作还有一种是完全不可加的例如比率。对于这类非可加度量一种好的方法是尽可能存储非可加度量的完全可加分量并在计算出最终的非可加事实前将这些分量汇总到最终的结果集中。
度量值
在多维数据集中度量值是一组值这些值基于多维数据集的事实数据表中的一列而且通常为数字。此外度量值是所分析的多维数据集的中心值。即度量值是最终用户浏览多维数据集时重点查看的数字数据如销售、毛利、成本。
口径
口径就是取数逻辑如何取数的比如要取的数是10岁以下儿童中男孩的平均身高这就是统计的口径。
指标
指标是口径的衡量值也就是最后的结果。比如最近七天的订单量一个促销活动的购买转化率等。
一个指标具体到计算实施主要有以下几部分组成
指标加工逻辑比如count ,sum, avg
维度比如按部门、地域进行指标统计对应sql中的group by
业务限定/修饰词比如以不同的支付渠道来算对应的指标微信支付的订单退款率支付宝支付的订单退款率 。对应sql中的where。
除此之外指标本身还可以衍生、派生出更多的指标基于这些特点可以将指标进行分类
原子指标
基本业务事实没有业务限定、没有维度。比如订单表中的订单量、订单总金额都算原子指标
业务方更关心的指标是有实际业务含义可以直接取数据的指标。比如店铺近1天订单支付金额就是一个派生指标会被直接在产品上展示给商家看。
但是这个指标却不能直接从数仓的统一中间层里取数因为没有现成的事实字段数仓提供的一般都是大宽表。需要有一个桥梁连接数仓中间层和业务方的指标需求于是便有了派生指标
派生指标
维度修饰词原子指标。店铺近1天订单支付金额中店铺是维度近1天是一个时间类型的修饰词支付金额是一个原子指标维度观察各项指标的角度修饰词维度的一个或某些值比如维度性别下男和女就是2种修饰词。
衍生指标
比如某一个促销活动的转化率就是衍生指标因为需要促销投放人数指标和促销订单数指标进行计算得出。
标签
标签是人为设定的、根据业务场景需求对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果如网红、白富美、萝莉。对于有歧义的标签我们内部可进行标签区分比如苹果我们可以定义苹果指的是水果苹果手机才指的是手机。
自然键
由现实中已经存在的属性组成的键它在业务概念中是唯一的并具有一定的业务含义比如商品ID员工ID。
以数仓角度看来自于业务系统的标识符就是自然键比如业务库中员工的编号。
持久键
保持永久性不会发生变化。有时也被叫做超自然持久键。比如身份证号属于持久键。
自然键和持久键区别举个例子就明白了比如说公司员工离职之后又重新入职他的自然键也就是员工编号发生了变化但是他的持久键身份证号是不变的。
代理键
就是不具有业务含义的键。代理键有许多其他的称呼无意义键、整数键、非自然键、人工键、合成键等。
代理键就是简单的以按照顺序序列生产的整数表示。产品行的第1行代理键为1则下一行的代理键为2如此进行。代理键的作用仅仅是连接维度表和事实表。
退化维度
退化维度就是那些看起来像是事实表的一个维度关键字但实际上并没有对应的维度表就是维度属性存储到事实表中这种存储到事实表中的维度列被称为退化维度。与其他存储在维表中的维度一样退化维度也可以用来进行事实表的过滤查询、实现聚合操作等。
那么究竟怎么定义退化维度呢比如说订单id这种量级很大的维度没必要用一张维度表来进行存储而我们进行数据查询或者数据过滤的时候又非常需要所以这种就冗余在事实表里面这种就叫退化维度citycode这种我们也会冗余在事实表里面但是它有对应的维度表所以它不是退化维度。
下钻
这是在数据分析中常见的概念下钻可以理解成增加维的层次从而可以由粗粒度到细粒度来观察数据比如对产品销售情况分析时可以沿着时间维从年到月到日更细粒度的观察数据。从年的维度可以下钻到月的维度、日的维度等。
上卷
知道了下钻上卷就容易理解了它俩是相逆的操作所以上卷可以理解为删掉维的某些层由细粒度到粗粒度观察数据的操作或沿着维的层次向上聚合汇总数据。
T0与T1
概念最早来自于股市。T0和T1交易制度是中国股市的一种交易制度T0交易指的是当天买入股票可当天卖出当天卖出股票又可当天买入。
在大数据中T0代表实时处理的数据。T1代表处理昨天的数据。
数据挖掘
数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式数据挖掘者使用统计学(是呀好老的数学)、机器学习算法和人工智能。
数据科学家
我们谈论的是一个如此热门的职业!数据科学家们可以通过提取原始数据(难道是从前文所说的数据湖中提取的?)处理数据然后提出新见解。数据科学家所需具备的一些技能与超人无异分析、统计、计算机科学、创造力、故事讲述和理解业务环境。难怪他们能获得如此高的薪水报酬。
总线架构
维度建模的数据仓库中有一个概念叫Bus Architecture中文一般翻译为“总线架构”。总线架构是Kimball的多维体系结构MD中的三个关键性概念之一另两个是一致性维度Conformed Dimension和一致性事实Conformed Fact。
在多维体系结构MD 的数据仓库架构中主导思想是分步建立数据仓库由数据集市组合成企业的数据仓库。但是在建立第一个数据集市前架构师首先要做的就是设计出在整个企业内具有统一解释的标准化的维度和事实即一致性维度和一致性事实。而开发团队必须严格的按照这个体系结构来进行数据集市的迭代开发。
一致性维度就好比企业范围内的一组总线不同数据集市的事实的就好比插在这组总线上的元件。这也是称之为总线架构的原因。
实际设计过程中我们通常把总线架构列表成矩阵的形式其中列为一致性维度行为不同的业务处理过程即事实在交叉点上打上标记表示该业务处理过程与该维度相关。这个矩阵也称为总线矩阵Bus Matrix。
总线架构和一致性维度、一致性事实共同组成了Kimball的多维体系结构的基础也建立了一套可以逐步建立数据仓库的方法论。由于总线架构是多维体系结构的核心所以我们有时就把多维体系结构直接称为总线架构。
总线矩阵
通常总线矩阵的一行会产生几个相关的事实表由此可以从不同角度跟踪业务过程。订单业务过程可能会有行项级别的订单事务事实表和订单级别的订单快照事实表。这两种基于订单的维度模型同属于订单业务过程这种分组称为业务过程维度模型。
二、数仓概念之间关系
实体表事实表维度表之间的关系
在Kimball维度建模中有维度与事实在Inmon范式建模中有实体与关系如果我们分开两种建模方式看这些概念比较容易理解。但是目前也出现了不少混合建模方式两种建模方式结合起来看这些概念是不是容易记忆混乱尤其事实表和实体表它们之间到底有怎样区别与联系先看下它们各自概念
维度表
维度表可以看成是用户用来分析一个事实的窗口它里面的数据应该是对事实的各个方面描述比如时间维度表地域维度表维度表是事实表的一个分析角度。
事实表
事实表其实就是通过各种维度和一些指标值的组合来确定一个事实的比如通过时间维度地域组织维度指标值可以去确定在某时某地的一些指标值怎么样的事实。事实表的每一条数据都是几条维度表的数据和指标值交汇而得到的。
实体表
实体表就是一个实际对象的表实体表放的数据一定是一条条客观存在的事物数据比如说各种商品它就是客观存在的所以可以将其设计一个实体表。实时表只描述各个事物并不存在具体的事实所以也有人称实体表是无事实的事实表。
“
举个例子比如说手机商场中有苹果手机华为手机等各品牌各型号的手机这些数据可以组成一个手机实体表但是表中没有可度量的数据。某天苹果手机卖了15台华为手机卖了20台这些手机销售数据属于事实组成一个事实表。这样就可以使用日期维度表和地域维度表对这个事实表进行各种维度分析。
”
指标与标签的区别
概念不同
指标是用来定义、评价和描述特定事物的一种标准或方式。比如新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标
标签是人为设定的、根据业务场景需求对目标对象运用一定的算法得到的高度精炼的特征标识。可见标签是经过人为再加工后的结果如网红、白富美、萝莉。
构成不同
指标名称是对事物质与量两方面特点的命名指标取值是指标在具体时间、地域、条件下的数量表现如人的体重指标名称是体重指标的取值就是120斤
标签名称通常都是形容词或形容词名词的结构标签一般是不可量化的通常是孤立的除了基础类标签通过一定算法加工出来的标签一般都没有单位和量纲。如将超过200斤的称为大胖子。
分类不同
对指标的分类
按照指标计算逻辑可以将指标分为原子指标、派生指标、衍生指标三种类型
按照对事件描述内容的不同分为过程性指标和结果性指标
对标签的分类
按照标签的变化性分为静态标签和动态标签
按照标签的指代和评估指标的不同可分为定性标签和定量标签
指标最擅长的应用是监测、分析、评价和建模。标签最擅长的应用是标注、刻画、分类和特征提取。特别需要指出的是由于对结果的标注也是一种标签所以在自然语言处理和机器学习相关的算法应用场景下标签对于监督式学习有重要价值只是单纯的指标难以做到的。而指标在任务分配、绩效管理等领域的作用也是标签无法做到的。
维度和指标区别与联系
维度就是数据的观察角度即从哪个角度去分析问题看待问题。
指标就是从维度的基础上去衡算这个结果的值。
维度一般是一个离散的值比如时间或地域维度上每一个独立的日期或地区。因此统计时可以把维度相同记录的聚合在一起应用聚合函数做累加、均值、最大值、最小值等聚合计算。
指标就是被聚合的通计算即聚合运算的结果一般是一个连续的值。
自然键与代理键在数仓的使用区别
数仓工具箱中说维度表的唯一主键应该是代理键而不应该是自然键。有时建模人员不愿意放弃使用自然键因为他们希望与操作型代码查询事实表而不希望与维度表做连接操作。然而应该避免使用包含业务含义的多维键因为不管我们做出任何假设最终都可能变得无效因为我们控制不了业务库的变动。
所以数据仓库中维度表与事实表的每个连接应该基于无实际含义的整数代理键。避免使用自然键作为维度表的主键。
SKU与SPU
SPU Standard Product Unit (标准化产品单元)
SPU是商品信息聚合的最小单位是一组可复用、易检索的标准化信息的集合该集合描述了一个产品的特性。通俗点讲属性值、特性相同的商品就可以称为一个SPU。
SKUstock keeping unit(库存量单位)
SKU即库存进出计量的单位 可以是以件、盒、托盘等为单位。
你想要一台iPhone13, 店员也会再继续问: 你想要什么iPhone 13? 64G 银色?128G 白色?每一台iPhone 13的毛重都是400.00g,产地也都是中国大陆这两个属性就属于spu属性。
而容量和颜色,这种会影响价格和库存的(比如64G与128G的价格不同,128G白色还有货,绿色卖完了)属性就是sku属性。
spu属性
1、毛重420.00 g
2、产地中国大陆
sku属性:
1、容量: 16G, 64G, 128G
2、颜色: 银、白、玫瑰金