博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据仓库的粒度
阅读量:4213 次
发布时间:2019-05-26

本文共 767 字,大约阅读时间需要 2 分钟。

数据仓库中的粒度是指数据的详细程度,同样为了描述一个情况,我可以用很多的数据,但同样我也可以只用必需的数据。而这起决于存储器。如果有很大的硬盘,那就没有我们不能存的事情。所以,估计一年内里表中的最大行数和最小行数,是设计者的最大问题。这里牵扯到了一个概念:上下限推测的方法。(别问我,我也不懂)
 
然后通过简单的计算可以知道数据库大概的情况,然后可以调整我们的策略。说的仔细一点,我们可以采用双重粒度或者单一粒度的办法。
 
双重粒度是降低数据量的最佳方法。而且,大多数公司都采用这种方法。下面来一个分析:
 
双重粒度包括:低细节级和高细节级。要知道:在很低的细节级上建立轻度汇总数据是没有意义的。反过来,在太高的细节级建立汇总数据也是没有用的。所以,一定要进行数据粒度的评估,然后才能得出最佳的汇总方案。而可笑的是,这根本都是猜测出来的,没有正确性的保证,嘿嘿,没办法,谁让我们本来就是在做一件不知道条件,指知道结果的方程式呢,但你可以把你的结果给最终用户看,让她来评价这个好坏,别指望%100的通过,%50就很不错了:)
 
这里有一些反馈技巧和一个例子,在90页,你可以参考一下。
 
如果说,数据粒度教你建数据仓库的话,下一个话题就是教你管理啦!
 
 
而且,由于数据仓库的使用对象不尽相同,数据仓库的设计需要考虑其数据单元的细节程度,即粒度。细节程度越高,粒度级就越低,反之亦然。例如:一个简单的交易处于低粒度级,而每个月所有交易的汇总则处于一个高粒度级。通常,数据分析人员使用的数据粒度较低,而高层管理人员所使用的数据粒度较高。粒度同时决定了数据仓库所占用的物理空间的大小,尽管一条交易记录可能只占用200个字节,但是一个月所累积的10万条交易记录就占用了20M个字节。如果按月对每月的所有交易记录进行综合,所得到的记录可能只占用500个字节。

转载地址:http://rgfmi.baihongyu.com/

你可能感兴趣的文章
KMP
查看>>
poj 3863Business Center
查看>>
Android编译系统简要介绍和学习计划
查看>>
Android编译系统环境初始化过程分析
查看>>
user2eng 笔记
查看>>
DRM in Android
查看>>
ARC MRC 变换
查看>>
Swift cell的自适应高度
查看>>
【linux】.fuse_hiddenXXXX 文件是如何生成的?
查看>>
【LKM】整合多个LKM为1个
查看>>
【Windows C++】调用powershell上传指定目录下所有文件
查看>>
Java图形界面中单选按钮JRadioButton和按钮Button事件处理
查看>>
小练习 - 排序:冒泡、选择、快排
查看>>
SparkStreaming 如何保证消费Kafka的数据不丢失不重复
查看>>
Spark Shuffle及其调优
查看>>
数据仓库分层
查看>>
常见数据结构-TrieTree/线段树/TreeSet
查看>>
Hive数据倾斜
查看>>
TopK问题
查看>>
Hive调优
查看>>