外文翻译XJY
小产权房转让合同-雷锋名言名句
数据仓库和OLAP技术的概况
摘要
数据仓库和联机分析
处理(OLAP)是决策支持的重要元素,已日益成为产业集中的数据库。现在
可以使用许多商业产品和
服务,和现在有产品在这些领域所有的主要数据库管理系统供应商。相
比较于传统的在线事务处理应用程
序决策支持对数据库技术有一些截然不同的需求。本文概述了
数据仓库和OLAP技术,重点是他们的新
要求。我们描述后端工具提取、清洁和加载数据到数据
仓库
;
多维数据模型的典型OL
AP;前端客户查询和数据分析工具;服务器扩展有效的查询处理;
和工具对元数据管理和仓库管理。除
了测量状态的艺术,本文也指出一些有前途的研究问题,其中
的一些相关问题,数据库研究界已工作多年
,但其他一些问题才刚刚开始得到解决。这是作者在
1996年VLDB会议上提出的基于一个教程概述
的问题。
1、 引言
数据仓库是决策支持技术的集合,目的是想要让知识工作者(主管,经
理,分析师)做出更好和更快的
决策。过去三年在提供产品和服务的数量上以及采用这些技术的行业有爆
炸式的增长。根据数据
仓库元集团市场,包括硬件、数据库软件和工具,预计将从20亿年的1995美
元增长到80亿年的
1998美元。数据仓库技术已经成功地部署在许多行业:制造业(订单发货和客户
支持),零售(用户分
析和库存管理)、金融服务(要求分析,风险分析,信用卡分析和欺诈检测)、运
输(车队管理),电信(电
话分析和欺诈检测)、公用设施(电力使用情况分析),和医疗(分析结果)
。这项研究介绍了数据仓库
技术的路线图,专注于数据仓库的特殊要求在数据库管理系统(dbms)。
数据仓库是一个面向主题
的、集成的、时变的,主要用于非易失性的数据收集。在组织决策中。通常,数
据仓库是独立于组
织维护的操作型数据库。这样做有很多原因。数据仓库支持联机分析处理(OLAP)
的功能和性能
要求。这非常不同于联机事务处理(OLTP)应用程序支持的传统操作数据库。
OLTP应用程序通常自动化文书数据处理任务,如订单输入和银行交易,是一个组织的实用的日常
操
作。这些任务的结构和重复,由短,微小,独立的生产。通常在他们的主键事务需要详细、最新数
据和读
取或更新几(数万)记录访问。操作数据库往往是数百兆字节大小。数据库的一致性和可恢
复性至关重要
,是事务生产量最大化的关键性能指标。因此,数据库是为了反映已知应用程序的操
作语义,而且,特别
是并发冲突降到最低。
相反,数据仓库是决策支持的目标。个人认为历史、总结和整合数据比详细的更
重要。因为数据
仓库包含整合数据,也许从几个操作数据库,可能很长一段时间,他们往往是数量级大于
操作数据
库;企业数据仓库将数百gb字节大小。查询密集型工作负载主要是特别复杂的查询可以访问数
百万条记录并执行大量的扫描,连接和聚集。查询生产量和响应时间比产品生产量更重要。
促
进复杂的分析和可视化、数据仓库通常多维建模。例如,在一个销售数据仓库,销售时间、销售
地区、销
售人员和产品可能感兴趣的一些维度。通常,这些维度层次;销售时间可能是组织为日-
月-季度-
年的层次结构,产品作为产品-种类-产业层次结构。典型的OLAP操作包括汇总(增加聚
合的水平)
和向下钻取(减少聚合的水平或增加细节)以及一个或多个维度层次结构,片和骰子(选
择和投影),和
枢轴(调整数据的多维视图)。
考虑到操作数据库是支持OLTP工作负载,试图执行复杂的OLAP
查询操作数据库将导致不可接
受的性能。
此外,决策支持需要从操作数据库的数据可能会丢失
;例如,理解趋势或预测需要历史数据,而操作
数据库只存储当前数据。决策支持通常需要合并来自许多
异构数据源的数据:这些可能包括外部
资源,如股市提要,除了几个操作数据库。不同来源可能包含不同
的数据质量,或使用不一致表示,
代码和格式必须一致。最后,支持OLAP的多维数据模型和典型操作
需要特殊的数据组织、访问
方法,和实现的方法,而不是通常所提供的商业dbms
OLTP的目标。正是因为这些原因,数据仓库
实现分开操作数据库。
数据仓
库可能是标准上实现或扩展关系型DBMSs,称为关系OLAP(ROLAP)服务器。这些服务器
假
定数据存储在关系数据库中,和他们支持扩展SQL和特殊的访问和实现方法有效地实现了多维
数据模型
和操作。相比之下,多维OLAP(MOLAP)服务器是服务器直接将多维数据存储在特殊的
数据结构
(如。、数组)和实现OLAP操作对这些特殊的数据结构。
有更多比选择构建和维护数据仓库OLA
P服务器和定义一个模式和一些复杂的查询仓库。不同
的架构选择存在。许多组织希望实现一个集成的企
业仓库,所有科目(如收集信息。、客户、产品、
销售、资产、人员)横跨整个组织。然而,建立一个企
业仓库是一个漫长而复杂的过程,需要广泛的
业务建模,可能需要许多年才能成功。相反,一些组织是解
决数据集市的部门专注于选定的对象(如
子集。营销数据集市可能包括客户、产品、销售信息)。这些数
据集市使更快的推出,因为它们不
需要企业范围的共识,但他们可能会导致复杂的集成问题,从长远来看
,如果没有一个完整的商业
模式发展。
在第2部分中,我们描述一个典型的数据仓库在第二节
,我们描述一个典型的数据仓库的数据仓
库。在部分3 - 7,我们回顾相关技术加载和刷新数据在数
据仓库,仓库服务器,前端工具和仓库管
理工具。在每种情况下,我们指出不同于传统数据库技术是什么
,和我们提到的代表产品。在这篇
文章中,我们不打算提供全面的描述所有产品在每一个类别。我们鼓励
读者感兴趣的看看最近的
贸易杂志,如数据库顾问的问题,数据库编程和设计,自动化资料处理和DBM
S杂志,和供应商网站
商业产品的详细信息,白皮书,案例研究。OLAP Council是个好行业
标准化工作的信息来源,和科
德的一篇论文,等。定义了OLAP产品十二规则。最后,一个好的源引用
的数据仓库和OLAP数据
仓库信息中心。
数据仓库的研究相当近,主要集中在查询处理和视
图维护问题。仍有许多开放的研究问题。8节
中我们得出结论,简要提及这些问题。
2。架构和端到端流程
图1显示了一个典型的数据仓库架构。
图1所示。数据仓库的体系结构
它包括工具提取数据从多个操作数据库和外部来源;清洗、转
换和整合这些数据;数据加载到数
据仓库;定期刷新仓库反映更新的来源和清除的数据仓库,也许到慢归
档存储。除了主仓库,可能会
有几个部门的数据集市。数据仓库和数据集市是由一个或多个仓库服务器存
储和管理,提出多维
视图的数据各种前端工具:查询工具,报告作者、分析工具和数据挖掘工具。最后,
还有一个存储
库,用于存储和管理元数据,监控和管理仓储系统和工具。
仓库
可能是分布式负载均衡,可伸缩性和高可用性。在这样一个分布式体系结构、元数据存储库
通常是与仓库
的每个片段复制,和整个仓库仓库的每个片段,和整个仓库集中管理。另一种体系结
构,实现私利时可能
过于昂贵的构造一个逻辑集成的企业仓库,仓库联合会或数据集市,每个都有
自己的存储库和分级管理。
设计和推出数据仓库是一个复杂的过程,包括以下活动:
1.
定义体系结构,容量规划,并选择存储服务器、数据库和OLAP服务器和工具。
2.
整合服务器、存储和客户端工具。
3. 设计仓库模式和观点。
4.
定义物理仓库组织、数据位置分区和访问方法。
5.
使用网关连接数据源,ODBC驱动程序,或其他包装。
6.
设计和实现数据提取脚本,清洗、转换、加载和刷新。
7.
填充模式和视图定义的存储库,脚本和其他元数据。
8. 设计和实现终端用户应用程序。
9.
推出仓库和应用程序。
3。后端工具和实用程序
数据仓库
系统使用不同的数据提取和清洁工具,填充仓库和加载和更新实用程序。数据提取外国
来源通常是实现通
过网关和标准接口(比如信息建筑商EDA
SQL,ODBC,甲骨文打开接,Sybase
企业连接,Informix企业网关)。
数据清理
由于数据仓库是用于决策,重要的是,仓库中的数据是正确的。然而,由于涉及大量
来自多个来源的
数据,有一个高概率的错误和异常数据。因此,工具,帮助检测数据异常和改正可以有高
回报。一些
示例数据清洗清洁是必要的:字段长度不一致,不一致的描述,不一致的价值分配,失踪的条
目和
违反完整性约束。毫不奇怪,可选字段在数据输入表单不一致数据的重要来源。有三个相关,但有<
br>些不同,类相关的有三个,但有些不同,类的数据清洗工具。数据迁移工具允许简单的指定转换规则;例如性别按性别、替换字符串。仓库经理从棱镜的一个例子是一个受欢迎的工具。数据清洗工具
使用
特定领域的知识(如。、邮政地址)做数据的擦洗。他们经常利用解析和模糊匹配技术来完成
清洁来自多
个来源。一些工具可以指定来源的相对清洁。工具,如完整性和Trillum属于此类。数
据审计工具
可以发现规则和关系(或违反规定规则信号)通过扫描数据。因此,这些工具可能是变异
的数据挖掘工具
。例如,这种工具可能会发现一个可疑的模式(基于统计分析),某汽车经销商从未
收到任何投诉。
工作量
提取后,清洗和转换,必须加载到数据仓库中。可能还需要额外的预处理:检查完整性
约束;排序;
总结、聚合和其他计算构建派生表存储在仓库,建筑指数和其他访问路径;和存储区域划分
到多个
目标。通常情况下,批量装载实用程序用于这一目的。除了填充仓库,load实用程序必须允许
系统
管理员监控状态,取消,挂起和恢复一个负载,重新启动失败后没有损失数据的完整性。
load实用程序为数据仓库需要处理更大的数据量比操作数据库。只有一个小的时间窗口(通常在
晚上
)当仓库可以离线刷新它。连续加载可以花费很长的时间,例如、tb的数据可能需要几周和几
个月!因
此,流水线和分区并行性通常利用. 做一个满载的优点是,它可以被视为一个长的批处理
事务,建立一
个新的数据库。虽然在进步,当前数据库仍然可以支持查询;当负载事务提交时,当前
的数据库被替换为
新的一个。使用周期检查点保证如果在负载发生故障时,这一过程可以从最后
一个检查点重新启动。 <
br>然而,即使使用并行,满载仍可能花很长时间。大多数商业工具(如红砖表管理实用程序)使用增量
加载的数据在刷新降低音量必须纳入仓库。只插入更新的元组。然而,现在的装载过程是难以管
理。增量加载冲突正在进行的查询,因此被视为一系列短事务(提交定期,如每1000条记录或每隔<
br>几秒钟后),但现在这个序列的事务必须协调以确保导出数据和索引的一致性与基础数据。
刷新
刷新一个仓库在于传播源数据更新相应更新基础数据和导出数据存储在仓库。有需要考虑两个问
题:当刷新,刷新。通常,(如定期刷新仓库。每日或每周)。只有一些OLAP查询需要当前数据(如。
最新的股票报价),有必要每天更新传播。刷新策略设置由仓库管理员,根据用户需求和交通,和不
同
来源可能不同。刷新技术也可能取决于源的特点和数据库服务器的功能。提取整个源文件或数
据库通常是
过于昂贵,但遗留数据源可能是唯一选择。大多数现代数据库系统提供复制服务器,支
持增量技术传播从
主数据库更新一个或多个副本。这样复制服务器可用于增量刷新一个仓库当来
源的变化。有两种基本的复
制技术:数据航运和事务。
在数据运输(如。,用于Oracle复制服务器,实践OmniRepl
icator),一个表在仓库都被视为一个远
程的快照源数据库中的一个表。ROW触发后用于更新快
照日志表只要源表发生变化和一个自动
刷新进度(或手动刷新过程)然后设置传播更新数据到远程快照。
在事务航运(如。复制,用于Sybase服务器和Microsoft SQL Server),定
期使用事务日志,而不是
触发器和一个特殊的快照日志表。在源站点,事务日志是嗅检测更新复制表,和
这些日志记录转移
到复制服务器,这包相应的事务更新副本。交易运输的优点是,它不需要触发器,可以
增加操作源数
据库上的工作负载。然而,它不能总是使用容易在dbms来自不同供应商的,因为没有标
准api来
访问事务日志。
这样的复制服务器已经使用了刷新数据仓库。然而,刷新周期必须
正确选择,这样的数据量并不压
倒增量load实用程序。
除了传播变化的基本数据仓库,派
生的数据也必须相应更新。构建逻辑上正确更新的问题逐步更
新导出数据(物化视图)一直是许多研究的
主题对于数据仓库,最重要的类派生数据汇总表,单表指
数和加入指数。
4。概念模型和前端工具
一个流行的概念模型,影响前端工具,数据库设计和查询引擎OLA
P的多维视图中的数据仓库。在
多维数据模型中,有一组数字度量分析的对象。这些措施的例子有销售、
预算收入,库存,ROI(投资
回报率)。每个数字措施取决于一组维度,提供上下文的措施。例如,与
销售额可以关联的维度,产
品名称,日期出售。尺寸一起被假定为惟一确定的措施。因此,多维数据视图
衡量价值维度的多维
空间。每个维度是由一组属性描述。例如,产品尺寸可以由四个属性:产品的类别和
行业,每年的介
绍,和平均利润率。例如,苏打属于一类饮料和食品行业,1996年被引入,可能平均
利润率为80%。
一个维度的属性可能与通过的层次结构关系。在上面的例子中,产品名称相关的行业类
别和属性
通过这样的层次关系。
图2。多维数据
OLAP的概念模型的另一个独特的特性是其压力测量由一个或多个维度的聚合的一个
关键操作,
如计算和排名的总销售额每个县(或每年)。其他受欢迎的业务包括比较两个措施(如。、销
售和预
算)聚合相同的维度。时间是一个维度,对决策支持(如特定的意义。趋势分析)。通常,它是可
取的
内置日历和时间维度的其他方面的知识。
前面的结束工具
多维数据模型的推广
的业务数据的电脑电子表格程序,由业务分析师广泛使用。电子表格仍然是
最引人注目的OLAP前端应
用程序。挑战在支持OLAP查询环境可以大致概括为支持的电子表
格操作有效地在大几个g的数据库。
事实上,Essbase安娜公司的产品使用Microsoft
Excel作为
其多维引擎的前端工具。
我们将简要讨论的一些受欢迎的多维电子表格应用程
序所支持的操作。这样一个操作旋转。考虑
图2的多维模式代表了在一个电子表格,每一行对应一个销售
。要有一列的每个维度和一个额外
的列代表的销售数量。最简单的旋转视图是选择两个维度用于总体衡量
,如。在上面的例子中,销
售。聚合值通常显示在网格中的每个值(x,y)坐标对应的聚合值测量当第
一个维度值x和第二个维
度有价值。因此,在我们的示例中,如果选择的维度是城市和一年,那么x轴可
能代表所有城市和y
轴的值代表了年。点(x,y)将代表聚合销售城市x
y。因此,原始电子表格中的值是什么已经成为旋
转电子表格行和列标题。
其他运营商与旋转汇总或下钻。汇总对应于当前数据对象和做进一步的group by维度之一。因<
br>此,可以卷起的销售数据,也许已经聚集在城市,另外的产品。下钻操作向下钻取操作。分割成对应
于降低数据的维数,即,投影数据维度的一个子集的选择值的其他维度。例如,我们可以分割成销售
数
据为一个特定的产品,创建一个表,包含维度城市和出售。其他受欢迎的运营商包括排序(排序),
选择
和定义计算属性。
虽然多维电子表格已经吸引了很多感兴趣的,因为它使最终用户分析业务数据,这并
不能取代传
统分析通过查询管理环境。这些环境中使用存储过程和预定义的复杂查询提供打包的分析工具
。
这些工具通常使终端用户查询的特定于领域的业务数据。这些应用程序通常使用原始数据访问工具和优化访问模式根据后端数据库服务器。此外,还有查询环境(如。Microsoft Access)
,帮助建立
临时指指点点的SQL查询。最后,还有各种各样的数据挖掘工具,通常被用作数据仓库前端
工具。
5。数据库设计方法
上面描述的多维数据模型实现直接MOLAP服务器。我们将在
下一节简要描述这些。然而,当一
个关系ROLAP服务器使用,多维模型及其操作必须映射到关系和S
QL查询。在本节中,我们描述
的设计关系数据库模式,反映了多维视图的数据。
实体关系图
和标准化技术普遍用于数据库设计在OLTP环境中。然而,数据库设计建议的ER图
是不恰当的决策支
持系统在效率和加载数据的查询(包括增量加载)是重要的。
大多数数据仓库使用星型模式来表示多维数据模型。数据库由一个事实表和一个表为每个维度。
事实表中的每个元组包含一个指针(外键——通常使用生成的关键效率)的每个维度提供其多维
坐标,
并存储这些坐标的数值指标。每个维度表包含的列对应的属性维度。图3显示了一个星型
模式的一个例子
。
图3。一个星型模式。
明星模式没有明确为属性层
次结构提供支持。雪花模式提供一个改进的星型模式的维度层次结构
是显式地表示为规范维度表,如图4
所示。然而,在明星的规范化的结构维度表模式可能更适合浏
览维度。
事实星座的例子更复杂
的结构中多个事实表共享维度表。例如,预计费用和实际费用可能形成事
实星座,因为他们有许多维度。
图4。雪花模式。
除了事实
表和维度表,数据仓库存储选择包含预聚合数据的汇总表。在最简单的情况下,预聚合的
数据对应于聚集
事实表上选择一个或多个维度。这样的预聚合的汇总数据可以在数据库在至少两
个方面。让我们考虑的例
子总结表,由产品总销售额年图3的星型模式的上下文。我们可以代表
这样一个汇总表由
一个单独的事实表,股票维度的产品也是一个单独的萎缩的时间维度表,它包
含唯一的属性维度汇总表(
即有意义。年) 另外,我们可以通过编码代表汇总表聚合的元组在相同
相同的事实表和维度表没有添加
新表。这可能是通过添加一个新字段,每个维度和使用null:我们
可以编码一个天,一个月或一年的
日期维度表如下01(id0,0,22日,1960)代表一个记录1月22
日,1960年,(id
1、1、空01,1960)代表了月1960年1月,(id2、2空,空,1960)代表了1960年。
第二个属性代表了新的属性水平:0天,1个月,2年。在事实表中,包含外键记录id2代表聚合产品
的销售在1960年。后一种方法,同时减少表的数量,通常是一个源水平以来的操作错误字段需要仔细解释。
6。仓库服务器
数据仓库可能包含大量数据。回答查询的效率,因此,需要
高效的访问方法和查询处理技术。一些
问题出现。首先,数据仓库使用冗余的结构索引和物化视图等。选
择哪个指标来构建和哪个视图
来实现是一个重要的物理设计问题。接下来的挑战是有效地使用现有的索引
和物化视图来回答查
询。复杂的查询优化是另一个重要的问题。同时,对于data-selectiv
e查询,高效的索引扫描可能
非常有效,数据密集型查询需要使用顺序扫描。因此,提高扫描的效率是非
常重要的。最后,需要利
用并行性来减少查询响应时间。在这个简短的纸,它不可能详细说明这些问题。
因此,我们只会短
暂触及的赛事集锦。
索引结构和它们的用法
大量的查询处理技术
,利用指数是有用的。例如,可以利用多个条件的选择性指数的十字路口。其
他有用的索引操作是索引的
联盟。这些索引操作可以显著降低,在许多情况下消除需要访问基表。
这种叶子页面通常包含一个记录
id列表(rid)的记录包含d值。然而,位图索引使用上面的另一种
表示清除列表作为一个位向量,
为每一个记录,这是设定的域值时,记录是d。从某种意义上说,位图
索引并不是一个新索引结构,而只
是另一种表示法的列表。位图索引的流行是由于这一事实的位
向量表示列表可以加快索引的十字路口,联
盟,加入,和聚合。例如,如果我们有一个查询表单的
column1 = d & column2
= d,然后我们可以确定合格的记录通过和两位向量。而这样的表示可以
非常有用的低基数域(如。、
性别),也可以有效的通过压缩位图(如高基数域。,运行长度编码)。
位图索引最初用于204型,
但许多产品今天(如支持他们。Sybase智商)。一个有趣的问题是决定
哪些属性指数。总的来说,
这确实是一个必须回答的问题的物理数据库设计过程。
除了单表上的索引,明星模式的特殊性质使决策
支持加入指数尤其有吸引力。而传统的索引列的
值映射到一个列表的行值,加入索引维护之间的关系与其
匹配的主键外键。在星型模式的背景下,
加入索引可以与一个或多个属性的值的维度表匹配的事实表中的
行。例如,考虑图3的模式。可
以有加入索引维护的城市,每个城市的列表rid的事实表中的元组对应
销售在那个城市。因此加入
索引基本上预先执行二进制连接。多键加入指数可以代表预先计算的多路连接
。例如,在销售数
据库可以构建一个多维加入指数从事实表(Cityname、Productnam
e)。因此,索引条目(西雅图,
夹克)指向rid的销售表中的元组,上面的组合。使用这样一个多维
加入索引有时可以提供储蓄是
否要单独的指数在Cityname和Productname的十字路口
。加入指数可用于位图表示为有效清
除列表连接处理。
最后,决策支持数据库包含大量的描述性文本,因此指数支持文本搜索是有用的。
物化视图和它们的用法
Many queries over data
warehouses require summary data, and, therefore,
use aggregates.
许多查询数据仓库需要汇总数据,和,因此,使用总量。因此,除了
指数,因此,除了指数,因此,除了指
数。例如,在一个投资环境,大多数的查询可能会根据最近一个季
度的性能和目前的财政年度。在
总结这些参数可以显著加快数据查询处理。
利用物化视图的挑
战并不像那些使用指数:(a)确定视图来实现,在使用指数:(a)确定视图来实现,
有效地更新在负
载和刷新物化视图。当前采用的工业解决方案,这些问题考虑物化视图有一个相
对简单的
结构。这些观点包括连接的事实表和维度表的一个子集(可能是一些选择在这些维度)后,
聚合的一个或
多个措施组合的一组属性维度表。这些视图的结构稍微复杂当底层模式是一个雪
花。
尽管限制
形式,仍有多种选择的视图来实现。选择视图来实现必须考虑负载的特点,成本增量更新
和存储需求的上
界。简化的假设下,贪婪算法被证明具有良好的性能。一个相关的问题是优化以
及物化视图的选择是估算
的影响聚合基数的关系。一个简单的,但非常有用的策略使用物化视图
是使用物化视图选择,或汇总物化
视图通过分组和聚合附加列。例如,假设一个物化视图包含每个
产品季度的总销售额。这个物化视图可以
用来回答查询请求利未的总销售额今年年代牛仔裤,首
先应用选择,然后从季度滚动到年。应该强调,旋
卷的能力从一个部分聚合结果,依赖(如代数性质
的聚合函数。,金额可以卷起,但其他一些统计函数可
能不是)。
一般来说,可能有几个候选人物化视图可以用来回答查询。如果认为V有相同的维度是问,
在问如
果选择条款意味着选择第五条款,如果group by列V在问group by列的一个子集
,然后查看V可
以作为发电机的问。给定一组的物化视图,查询问,我们可以定义一组问发电机米(即最
小。,最小
的发电机,所有其他发电机最小的发电机,所有其他发电机。可以有多个最小查询生成器。例
如,
给定一个查询,要求总销售额的衣服在华盛顿州,以下两个观点都是发电机:总销售额(a)通过为
每
个产品每个州(b)的总销售额为每个类别每个城市。最小的发电机的概念可以被优化器使用缩小搜索适当的使用物化视图。在商业方面,惠普智能仓库率先使用最小发电机来回答查询。当我们
定义
了一个发电机的概念在一个受限制的方式,优化查询的普遍问题的多个物化视图更加复杂。
精选项目连接
特殊情况的查询,在这个领域已经有一些工作。
转换复杂的SQL查询
发现问题的有效技术
处理复杂的查询查询优化有着浓厚的兴趣。在某种程度上,决策支持系统提
供一个试验场已经研究的一些
想法。我们只会总结一些关键的贡献。
有实质性工作unnest运算复杂的SQL查询翻译成单块包
含嵌套的子查询的SQL查询时一定的
句法限制感到满意。另一个方向,一直在追求优化嵌套的子查询是
减少调用的数量和批处理调用
内部子查询等semi-join技术。同样,压扁的问题包含视图查询感
兴趣的话题。这种情况下参与观
点SPJ查询是很好理解的。问题是更复杂的,当一个或更多的视图包含
聚合。自然,这问题是密切
相关的通勤group by和加入运营商的问题。然而,通勤group
by和加入适用于单块SQL查询的
上下文。字段出现在最近的一篇论文的概述。
并行处理
在处理大规模数据库并行性中起着重要作用。Teradata开创的一些关键技术。现在所有主要供<
br>应商的数据库管理系统提供的数据分区和并行查询处理技术。本文通过德威特和灰色概述、一个
有
趣的技术相关的只读环境决策支持系统是捎带的扫描请求多个查询(用于红砖)。捎带扫描降低
了总功以
及响应时间的重叠扫描多个并发请求。
服务器架构进行查询处理
传统的关系服务器没有面向
智能使用指数和其他要求支持多维视图的数据。然而,所有关系
DBMS供应商已经迅速转移到支持这些
额外的要求。除了传统的关系服务器,有三个其他类型的
服务器,是专门为开发决策支持。
1. 专门的SQL服务器:红砖是这类服务器的一个例子。这里的目标是提供高级查询语言SQL查<
br>询和查询处理支持在星型和雪花在只读模式的环境。
服务器:这些关系后端服务器之间的中间服务器坐(在仓库存储数据)和客户端前端工
具。 <
br>Microstrategy这样的服务器就是一个例子。他们扩展传统的关系与专门的中间件服务器,有
效地
支持多维OLAP查询,而且他们通常为特定的后端优化关系服务器。他们确定他们的观点确定适<
br>当的物化视图的视图,并生成multi-statement SQL的后端服务器。他们还提供额外的
服务,如调
度和资源分配的查询(例如,防止失控的查询)。还有一个趋势调整ROLA
P服务器领域特定
ROLAP工具。ROLAP服务器的主要优势是他们利用的可伸缩性和事务特性关系
系统。然而,内
在不匹配OLAP查询和SQL(如风格。,缺乏顺序处理,列聚合)会导致OLAP服
务器的性能瓶颈。
3, MOLAP服务器,这些服务器直接支持多维视图通过多维的数据存储引擎。
这使它可能通过直
接映射存储层。这样一个服务器的一个例子是Essbase(杆)。这种方法的优点
是优秀的索引属性,
但提供了可怜的存储利用率,特别是稀疏数据集。许多MOLAP服务器采用2级存
储表示适应稀
疏数据集和大量使用压缩。在二级存储在二级存储可能是密集的识别,通过使用设计工具或
由用
户输入,并且在数组的格式。然后,使用传统的索引结构指数到这些较小的数组。许多的技术统计<
br>数据库的设计似乎是有关MOLAP服务器.
SQL扩展
几个扩展SQL,方便的表
达和处理提出了OLAP查询或实现的扩展关系服务器。下面将描述这些
扩展。
1.大家庭的
聚合函数:这包括支持级别和百分位(如。,所有产品在前十名百分位或十大产品总销售)
以及支持多种
功能用于财务分析(意思是,模式中位数)。
2,为业务分析报表功能:生成的报告通常需要聚合特性
评估在一个时间窗口,如。移动平均线。此
外,重要的是要能够提供断点和运行总数。红砖年代SQL扩
展提供这样的原语。
3. 多个group by:前端工具,如多维电子表格要求以不同的分组属性
。这可以模拟一组SQL语句,
需要多次扫描相同的数据集,但这可能是低效的。最近,两个新的运营商
,汇总和多维数据集,提出
了增加SQL来解决这个问题, 因此,汇总列表的属性(产品、年市)在回
答一个数据集的结果与下
面的应用程序集的组:(一)组(产品、年城市)(b)组(产品,年),和(
c)集团的产品。另一方面,鉴于k列
的列表,多维数据集运营商提供了一个group by每个2
k的列的组合。这样多个group by等多个
group by团体, Microsoft
SQL Server支持多维数据集和汇总。
4. 比较:一篇文章由拉尔夫·金博和凯文Stre
hlo提供了一个很好的概述SQL的缺陷能够在商界
做比较常见,如。比较之间的差异总预计销售和总
由每季度实际销售,预计销售和实际销售表的一
列,
一个简单的执行这些查询可能需要多个顺序扫描。这篇文章提供了一些选择更好的支持比
较。
最近的一项研究报告最近的一项研究论文在聚合值通过扩展SQL.
7. 元数据和仓库管理
由于数据仓库反映了一个企业的商业模式,仓储架构是元数据管理的一个重要元素。许多不同种
类的元数据管理. 管理元数据包括所有必要的信息设置和使用一个仓库:
描述源数据库的后端
和前端工具;仓库的定义模式,导出数据,维度和层次结构,预定义的查询和报告;
数据集市的位置
和内容;物理组织如数据分区,数据抽取、清洗、转换规则,数据刷新和清除政策;和用
户配置文件、
用户授权和访问控制策略。业务元数据包括业务术语和定义、数据的所有权,和收费政策。
操作
元数据包括期间收集的信息仓库的操作: 血统的迁移和转换数据;数据仓库的货币(活跃,存档或
者清除);和监控信息,如使用统计数据,错误报告,审计跟踪。
通常,一个元数据存储库用
于存储和管理所有与仓库相关的元数据。存储库使之间共享的元数据
工具和流程设计、设置、使用、操作
和管理仓库。商业的例子包括铂库和棱镜目录管理器。
创建和管理一个仓储系统是困难的。开发工具用
于设计和编辑模式、视图、脚本、规则、查询和
报告。计划和分析工具用于假定场景,如理解模式变化或
刷新速率的影响,并进行容量规划. 仓库
管理工具(如。IBM,惠普智能仓库顾问、数据中心、棱镜
仓库经理)用于监控仓库,报表统计和建议
管理员:
使用分区和汇总表、查询执行时间,钻的类型和频率波动或汇总, 哪些用户或组请求数据,
峰值和平均
工作负载随着时间的推移,异常报告,检测失控的查询,和其他的服务质量指标。系统和
网络管理工具(
如IBM,惠普OpenView网络检视软件,Tivoli)是用来衡量客户端和服务器之间的流
量
, 仓库服务器之间和操作数据库,等等。最后,直到最近工作流管理工具被认为是用于管理提取-
擦净-加载-刷新的提取过程。工作流引擎可以确保成功完成过程,持续记录每一步的成功或失败,<
br>并提供故障恢复与部分回滚,重试,或滚。
8。研究问题
我们已经描述了大量开发和
部署决策支持系统的技术挑战。虽然许多商业产品和服务的存在,仍
有几个有趣的途径进行研究。我们将
在这里只涉及其中的几个。
数据清洗是一个让人想起异构数据集成的问题,这个问题已经研究了许多年
。但是这里重点是数
据不一致,而不是模式不一致。数据清理,我们表明,数据挖掘也密切相关,暗示可
能的目标不一致。
数据仓库的物理设计问题应重燃兴趣索引选择知名的问题,数据分区和物化视图的选
择。然而,当
回顾这些问题,必须认识到所发挥的特殊作用聚合。决策支持系统已经提供了查询优化的领
域增
加挑战传统的选择性估计和基于成本的算法问题。分区的功能之间的查询引擎中间(如。,ROLA
P
层)和后端服务器也是一个有趣的问题。
数据仓库的管理也提出了新的挑战。检测失控的查
询、管理和调度资源的问题,是很重要的,但并
没有得到有效解决。一些工作已经完成物化视图增量更新
的逻辑正确性,但性能、可伸缩性和可
恢复性的属性这些技术没有被调查。特别是,在负载和刷新失败和
检查点问题存在许多指数和物
化视图需要进一步的研究。工作流技术的适应和使用有帮助的,但这需要进
一步的调查。
其中的一些地区正在被研究社区但其他人收到只有粗略的关注,尤其是在与数据仓库的关系。
感谢
我们感谢Goetz Graefe评论草案。
参考文献
1.
Inmon,诗人,构建数据仓库。约翰威利,1992年。
2.
http:
3. 科德,E.F.,S.B.科德,比较温度莎莉,提供OLAP(联机分析处理)用户分析:IT
授权。可以从软件
网站
http:.
4.
http:
5. Kimball,r .数据仓库工具。约翰•威利1996
6.
巴克莱,T。r·巴恩斯,j .灰色,p . Sundaresan加载数据库使用数据流并行。SIGMO
D记录,23
卷,第4期,Dec.1994。
7.
Blakeley,正当:科伯恩,p·拉尔森。自动更新派生关系:检测无关的和可计算的更新。ACM
TODS辑,1989年3号
8. 古普塔,。安全火花型Mumick,物化视图维护:问
题,技术和应用程序。数据中。2号公告,卷。
18日,1995年6月
9. 诸葛,Y。h
. Garcia-Molina j .锤,j . Widom视图维护在数据仓库环境中,Proc.
SIGMOD研讨
会,1995。
10. Roussopoulos,N。马里兰,et
al .,adm项目:观点反斗城。数据中。2号公告,卷。18日,1995
年6月。
11. 阿尼尔·P。与变异指数Quass d改善查询性能,出现在Proc.
SIGMOD研讨会,1997。
12. 阿尼尔·P。通过点阵式,Graefe g
.多表联结加入指数SIGMOD记录,1995年9月
13. Harinarayan
V。,拉一个。Ullman J.D.实施有效数据立方体Proc. SIGMOD研讨会,1996。
14. 乔杜里。•R。,Potamianos年代。,垫片k
.优化查询与物化视图Intl会议数据工程,1995。
15.
征收。Mendelzon。,这款y回答查询使用视图Proc.豆荚,1995。
16.
杨H.Z.,拉森P.A. PSJ查询的查询转换Proc. VLDB,1987。
17.
金正日w .优化sql样式的嵌套查询ACM TODS,1982年9月。
18.
Ganski,R。黄,H.K.T.、优化的嵌套SQL查询重新审视Proc.
SIGMOD研讨会,1987。
19. 新德里,U。的巢和树木:一个统一的方法
来处理包含嵌套的子查询的查询,骨料和量词Proc。
VLDB研讨会,1987。
20.
Murlaikrishna,改善unnest运算算法加入聚合SQL查询Proc。VLDB研讨会,19
92。
21. 瑟哈德里P。,Pirahesh H。,梁t
.复杂的查询解相关Intl。会议数据工程,1996。
22.
Mumick安全火花型魔法,Pirahesh h .实现集亮光11 SIGMOD研讨会,1994。
23. 乔杜里。与聚合视图垫片k .优化查询,Proc.发债公司,1996年。
24. 乔杜里。垫片k,包括集团在查询优化,Proc. VLDB,1994。
25.
燕P。,拉尔森P.A.急切的聚合和懒惰的聚合,Proc. VLDB,1995。
26.
古普塔。,Harinarayan V。Quass d .聚集查询处理在数据仓库环境中,Proc.
VLDB,1995。
27.
乔杜里。,垫片k的概述与骨料IEEE数据基于成本的查询优化工程通报,1995年9月。
28.
德威特dj。、灰色j .并行数据库系统:未来的高性能数据库系统CACM,1992年6月。
29.
Gray J. .
。数据立方体:关系聚合算子通用化group
by,卡和潜艇总数的数据挖掘和知识
发现杂志》,1卷,没有1997。
30.
Agrawal S. .
。的计算多维聚合Proc. VLDB研讨会,1996。
31.
Kimball R., Strehlo.,
为什么决策支持失败和如何修复它,转载在SIGMOD记录,24(3),1995
年。
32.
Chatziantoniou D, Ross K.
在关系数据库查询多个特性Proc. VLDB研讨会,1996。
33.
Widom,
J.
在数据仓库的研究问题。Proc。4日Intl。CIKM研讨会,1995。
34.
Wu, M-C.,
A.P.曼。数据仓库的研究问题。提交出版。