好文档 - 专业文书写作范文服务资料分享网站

数据仓库 商业智能相关面试题带答案

天下 分享 时间: 加入收藏 我要投稿 点赞

1 商务智能

1.1 数据仓库

1.1.1 数据仓库的4大特点(特征)?

面向主题的,集成的,相对稳定的,反映历史变化的。

1.1.2 数据仓库的四个层次体系结构?

1. 数据源

是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等; 2. 数据的存储与管理

是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市) 3. OLAP服务器

对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP 基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 4. 前端工具

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以数据挖掘及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP 服务器,报表工具、数据挖掘工具主要针对数据仓库。

1.1.3 描述一下联机分析处理OLAP?(维的概念,基本多维操作,

层次结构,与OLTP的区别)

OLAP(联机分析处理On-Line Analytical Processing)也叫多维DBMS。

OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是\

维\这个概念。

“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。也叫做多维数据集。一般一个多维数据集可以用一个立方体的方式进行描述。

多维数据集是联机分析处理 (OLAP) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。

每个多维数据集都有一个架构,架构是数据仓库中已联接的各表的集合,多维数据集从数据仓库提取其源数据。架构中的核心表是事实数据表,事实数据表是多维数据集度量值的源。

OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。

1.1.4 多维数据集为什么显示有些表即是事实表又是维度表?

退化维度。

1.1.5 描述一下粒度?维度?Cube?

粒度反映了数据仓库按照不同的层次组织数据,根据不同的查询需要,存储不同细节的数据。在数据仓库中,粒度越小,数据越细,查询范围就越广泛。相反,粒度级别越高,表示细节程度越低,查询范围越小。

1.1.6 描述一下ODS,统一数据视图

运营数据存储(The operational data store, ODS)或称操作型数据存储是一个面向主题的、集成的、当前的并且是可\挥发\的数据集合,它反映了在某一个时间切片瞬间,经营分析系统和外围系统(BOSS、MIS...)用以相互交换数据的集合,主要用于经营分析系统与外围系统关键数据一致性校验、以及经营分析系统对其它外围系统的决策支持数据的回馈,回馈数据包括以客户扩展属性为主体的详细资料等。运营数据存储扮演的是用于数据稽核与交互的角色。

ODS 的存储结构是以企业范围所有相关业务系统的数据,以全面、统一进行关系型实体来体现的,ODS中的数据是基于分析主题进行组织,而不是基于业务系统的功能进行组织。ODS只是存储了当前的数据且数据是“挥发”性的,因此其数据的刷新是很快,过期的数据将要被挥发掉。因此ODS的存储量取决于业务接口数据的抽取与刷新频率,取决于企业的服务客户的数量。

从ODS的作用和实现来说,ODS将各个孤立的业务系统的运营数据集成起来,现成全企业的统一数据视图,同时可实现ODS的数据共享。

1.1.7 描述一下企业信息工厂

数据仓库领域里,有一种构建数据仓库的架构,叫Corporate Information Factory,中文一般翻译为“企业信息工厂”。企业信息工厂的创始人是数据仓库之父Inmon。

企业信息工厂主要包括集成转换层(I&T)、操作数据存储(ODS)、数据仓库(EDW)、数据集市(DM)、探索仓库(EW)等部件。这些部件有机的结合在一起,为企业提供信息服务。

集成转换层的目的是将来自操作型源系统的数据集成转换到数据仓库中,它通常由一组程序组成,而其它部件如数据仓库和数据集市等则主要由数据组成。 当业务数据来源多,业务复杂时,集成转换层会建立一些临时表,为数据处理提供方便。这时,集成转换层包括程序和数据,也称数据准备区(Data Staging Area)。通常中等规模及以上的数据仓库系统都会建立数据准备区。

操作数据存储(ODS)是建立在数据准备区和数据仓库之间的一个部件。用来满足企业集成的、综合的操作型处理需要。例如,出尽可能实时的集成的操作报表等需求。一般,也称操作数据存储是用来满足企业战术决策的需要。操作数据存储是个可选的部件。

数据仓库是企业信息工厂的核心部件,用来保存整个企业的数据。一般,也称数据仓库是用来满足企业战略决策的需要。数据仓库的数据来自数据准备区和操作数据存储。

数据集市是为了满足企业特定部门的分析需求而专门建立的数据的集合。数据集市的数据来源是数据仓库。企业信息工厂中的数据集市一般来说是非规范化的、定制的和汇总的。而多维体系架构中的数据集市分为两种,分别是原子数据集市和聚集数据集市。一般来说,企业信息工厂中的数据集市相当于多维体系架构中的聚集数据集市。

1.1.8 数据是数据集市?

数据集市中的数据具有数据仓库中数据的特点,只不过数据集市专为某一部门或某个特定商业需求定制,而不是根据数据容量命名。

数据集市面向部门、业务单元或特定应用,因而规模较小,便于快速实现,且成本较低,短期内即可获得明显效果。数据集市的应用不仅满足了部门的数据处理需求,而且作为数据仓库的子集有助于构建完整的企业级数据仓库。

1.1.9 元数据的定义,元数据管理,元数据的作用用?

数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。

元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓库中的关键组件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

(1)构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用,它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。

(2)用户在使用数据仓库时,通过元数据访问数据,明确数据项的含义以及定制报表。

(3)数据仓库的规模及其复杂性离不开正确的元数据管理,包括增加或移除外部数据源,改变数据清洗方法,控制出错的查询以及安排备份等。

元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用,它描述了与数据仓库开发、管理和维护相关的数据,包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。

在数据仓库中,元数据的主要作用如下。

(1)描述哪些数据在数据仓库中,帮助决策分析者对数据仓库的内容定位。 (2)定义数据进入数据仓库的方式,作为数据汇总、映射和清洗的指南。 (3)记录业务事件发生而随之进行的数据抽取工作时间安排。 (4)记录并检测系统数据一致性的要求和执行情况。 (5)评估数据质量。

1.1.10 什么是主数据,主数据管理?和元数据有什么区别?主数据

管理和传统数据仓库的区别?

主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据, 比如,可以是与客户(customers), 供应商(suppliers), 帐户(accounts)以及组织单位(organizational units)相关的数据。主数据通常需要在整个企业范围内保持一致性(consistent)、完整性(complete)、可控性(controlled),为了达成这一目标,就需要进行主数据管理(Master Data Management ,MDM)。主数据不是企业内所有的业务数据,只是有必要在各个系统间共享的数据才是主数据,比如大部分的交易数据、帐单数据等都不是主数据,而像描述核心业务实体的数据,而像客户、供应商、帐户、组织单位、员工、合作伙伴、位置信息等都是主数据。主数据是企业内能够跨业务重复使用的高价值的数据。

主数据管理(Master Data Management ,MDM)是指一组约束和方法用来保证一个企业内主题域和系统内相关数据和跨主题域和系统的相关数据的实时性、含义和质量。这是从深层次来说来说明主数据管理(MDM)的深度和复杂性,简单的说,主数据管理(MDM)保证你的系统协调和重用通用、正确的业务数据(主数据)。通常,我们会把主数据管理作为应用流程的补充,通过从各个操作/事务型应用以及分析型应用中分离出主要的信息,使其成为一个集中的、独立于企业中各种其他应用核心资源,从而使得企业的核心信息得以重用并确保各个操作/事务型应用以及分析型应用间的核心数据的一致性。通过主数据管理,改变企业数据利用的现状,从而更好地为企业信息集成做好铺垫。

主数据管理(MDM)可以帮助我们创建并维护整个企业内主数据的单一视图(Single View),保证单一视图的准确性、一致性以及完整性,从而提供数据质量,统一商业实体的定义,简化改进商业流程并提供业务的响应速度。从变化的频率来看,主数据和日常交易数据不一样,变化相对缓慢,另外,主数据由于跨各个系统,所以对数据的一致性、实时性以及版本控制要求很高。

主数据(Master Data)和元数据(Meta Data)是两个完全不同的概念。元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等。

主数据管理和传统数据仓库解决方案不是一个概念,数据仓库会将各个业务系统的数据集中在一起在进行业务的分析,而主数据管理系统不会把所有数据都管理起来,只是把需要在各个系统间共享的主数据进行采集和发布。相对于传统数据仓库解决方案的单向集成,主数据管理正注重将主数据的变化同步发布到各个关联的业务系统中(主数据管理数据是双向的)。

1.1.11 描述一下ETL过程中需要处理的内容

三个简单的字母,E-T-L,很容易忽视38个ETL子系统在数据仓库建设中的重要性。

抽取-转换-加载(ETL)系统,或者非正式的称为“后台系统”,在建立整个数据仓库系统中占据了70的工作量和时间。但是这还不足以说明ETL系统的复杂性。每个人都理解这三个字母的含义,E,从源系统中将数据取出来;T,对这些数据做处理;L,加载到最终用户访问的表中。

1.抽取系统(Extract System)

主要功能包括源数据的适配器,推/拖/搬运数据的工作调度,对源数据的过滤和排序功能,数据格式的转换,迁移到ETL环境后的数据暂存功能。

2.变化数据捕获系统(Change Data Capture System)

主要功能包括对源数据日志文件的阅读功能,源数据日期和序列号的过滤功能,基于CRC算法的记录比较功能。

3.数据概况分析系统(Data Profiling System) 主要功能包括字段属性分析,如参照域的分析;结构分析,如主外键关系分析;数据规则分析;值规则分析等。

4.数据清洗系统(Data Cleansing System)

主要功能包括一个典型的数据字典驱动的系统,用于解析个体和组织的名称、地址等信息,也用来解析产品、场所等内容;一个“De-duplication”系统,用于鉴别和移除个体和组织信息,也用于产品和场所;一个“Surviving”系统,使用特定的数据合并逻辑,用来保存特定数据源的指定字段,这个特定数据源的数据将成为数据仓库的最终版本;为所有的数据源维护后台数据的对应关系,如自然键和代理键对应关系等内容。

5.数据一致性处理系统(Data Conformer System)

主要功能包括标识和生成专用的一致性维度属性、一致性事实的度量属性,这两组属性作为数据整合工作的基础,用来支持跨多个数据源的数据集成工作。

6.审计维度生成系统(Audit Dimension Assembler System)

主要功能是将与事实表相关的元数据内容加载到一张审计维度表中,这样最终用户可以像查看普通维度一样查看与事实表相关的元数据。

7.数据质量过滤系统(Quality Screen Handler System)

主要功能是在ETL的处理过程中自动的检测所有的数据质量问题。检测的结果将进入错误事件处理系统(详见子系统8)。

8.错误事件处理系统(Error Event Hander System)

主要功能是全面的记录和报告在ETL处理中的所有的错误事件。包括各类错误的分枝处理逻辑,还包括对ETL处理中数据质量的实时监控。

9.代理键生成系统(Surrogate Key Create System)

主要功能是以一种鲁棒的机制生成流水的代理键,生成规则不依赖与任何维度,也不依赖与任何数据库实例,可以支持分布式系统。

10.缓慢变化维处理系统(Slowly Changing Dimension Processor,SCD) 主要功能是处理维度表的属性随时间变化的情况,处理方式为:类型1(直接覆盖),类型2(生成新行),类型3(添加新列)。

11.迟到维度处理系统(Late Arriving Dimension Handler)

主要功能是当维度数据的变化情况到达数据准备区的时间晚于对应的事实数据时,对维度数据的插入和更新策略。

12.固定层级结构生成系统(Fixed Hierarchy Dimension Builder)

数据仓库 商业智能相关面试题带答案

1商务智能1.1数据仓库1.1.1数据仓库的4大特点(特征)?面向主题的,集成的,相对稳定的,反映历史变化的。1.1.2数据仓库的四个层次体系结构?1.数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类
推荐度:
点击下载文档文档为doc格式
35b6e60rtu37lyd0yjbf83hrt8bf1m008th
领取福利

微信扫码领取福利

微信扫码分享