http://www.paper.edu.cn
转折点计算机时代信息时代1.起步增长缓慢2.扩展随应用开发的扩张快速增长3.控制加强控制改造,应用发展缓慢4.集成基于数据环境建设,应用开发加快5.数据管理加强集成,增长减慢6.成熟数据处理发展跟上企业的发展图1 企业信息系统建设阶段模型(诺兰模型)
这四个发展阶段是:
Ⅰ、起步阶段(60年代,70年代); Ⅱ、增长阶段(80年代);
Ⅲ、成熟阶段(80年段,90年代);
Ⅳ、更新阶段(90年代中期,21世纪初期)。 决定这些阶段的特征有五个方面,包括: · 技术状况;
· 代表性应用和集成程度。 · 数据库和存取能力; · 信息技术组织机构和文化;
· 全员文化素质、态度和信息技术视野。
参照诺兰模型和米歇模型可以帮助矿山企业和信息系统开发商把握矿山信息系统的发展水平,了解矿山的IT综合应用在现代信息系统的发展阶段中所处的位置,是研究一个企
-6-
http://www.paper.edu.cn
业的信息体系结构和制定变革途径的认识基础,由此才能找准这个企业建设现代信息系统的发展目标。
目前,我国许多矿山企业的信息化进程基本上处于诺兰模型的第三阶段向第四阶段的过渡期,或是米歇模型的第二阶段向第三阶段的过渡期,要想进一步推动企业信息化的发展,就应该抓住过渡期的集成化特性进行信息系统集成建设。
对于那些处于增长阶段中后期的矿山企业,已经建立了一些分散的信息系统,需要在数据集成上下大功夫,建设好高档次的数据环境,综合地利用好新一代的信息技术,从而进入成熟阶段,重建新一代的信息系统。
新建矿山企业可以吸取他人的经验教训,不要再去经历起步和增长阶段,而是要抓住成熟阶段的特征,加强信息需求分析,搞好总体规划设计,综合地用好新一代的信息技术,开发集成化的信息系统;同时,还要重视业务人员的信息文化考核与培训,使之能用好新的信息系统。
4 矿山信息化的任务和目标
根据矿山企业信息化的现况和所处的阶段分析,我国矿山企业信息化现阶段的主要任务是以数据集成和信息资源开发为中心的集成化信息系统建设,即从矿山企业战略目标出发进行信息资源规划,在此指导下进行信息系统的集成开发和信息集成,大力开发利用矿山信息资源,逐步满足不同层次的管理与决策需求,是矿山信息化建设达到成熟阶段,直至更新阶段。
随着计算机技术和管理信息系统的发展,数据仓库技术已经成为信息时代的主要数据管理技术,已成为企业信息集成、信息资源开发和决策支持系统的最佳解决方案。因此矿山企业信息化现阶段的具体任务就是运用最新的信息技术和管理技术,建立矿山数据仓库应用系统,实现企业级数据集成,有效解决“信息孤岛”,开发利用矿山信息资源,服务于企业的生产经营和决策支持。
5 矿山数据仓库
5.1 矿山数据仓库的作用
1、有效解决矿山“信息孤岛”,实现信息系统的综合集成
当前,矿山信息化建设已经初具规模,但矿山现有的不同类型的业务系统和大量的业务数据分散在企业内部不同部门、不同系统,由于缺乏数据交换机制,数据需要重复多次输入,使数据一致性无法保证,信息及时反馈难、共享差,产生了所谓的“信息孤岛”,造成了信息资源和设备的浪费。通过矿山数据仓库的建设,形成企业内的数据中心,将企业的数据有机地关联起来,有效地解决企业各管理层之间,各业务部门之间、各应用系统之间数据独立和相互隔离的问题,实现信息共享。
2、规范矿业信息编码的标准化和信息系统建设规范化
随着矿山信息化建设的推进,信息化工作的中心应该从网络及信息系统的建设和维护向行业信息标准化、管理规定的制定、维护和监督转移。数据的交换、集中要基于标准的代码体系,数据的综合分析、决策应用要基于统一的指标体系。只有建立和制定企业统一的基础代码、标准的统计指标,企业内数据交换、集中和分析才可以顺利地实行。通过矿山数据仓库的建设,设立企业标准代码库,促进和规范矿山乃至整个矿业的信息标准化建设。
-7-
http://www.paper.edu.cn
3、强化矿山生产经营决策的科学性
数据作为矿山不断积累的宝藏,要发挥其重要作用就必须深入应用数据的挖掘分析功能,服务领导的决策。现有的数据分散到企业的不同层次,不同部门,无法进行深入、系统的数据分析,更不能满足管理者的决策分析需求。矿山数据仓库的建立实现数据归口管理、数据双向流动、数据集成和交换、形成全企业内的数据共享,使管理者全面、及时、准确、掌握企业生产的资源、产品、成本、安全和市场需求等信息,实现生产经营决策的科学性、及时性。
4、高效管理矿山价值链
数据仓库为矿山建立一个矿山资源、内部生产经营、外部市场、客户管理之间关系的集成视图,这种视图有助于实现矿山价值链从勘探、采矿、选矿、销售到矿山复垦在全矿范围的信息共享,从而改善矿体圈定,实现勘、采、选一体化和矿山智能规划,提高矿山生产质量和效益,保证生产安全,保障工人健康,降低开发风险和成本,提高矿山经济效益。
5、全面支持企业战略决策
矿山数据仓库的建立将实现矿山企业矿产资源、生产、销售、管理数据和外部市场数据的集成,使企业决策者能够全面、及时、准确的掌握企业的发展动态和市场需求,在市场竞争中更具竞争力。
5.2 矿山数据仓库的目标
1、建设矿山企业全局性、基础性数据集成环境,实现数据的统一、集中管理 通过建设矿山数据仓库,建立矿山企业全局性、基础性的中心数据库,实现对矿山数据的有效集成管理,将不同的管理系统、业务数据关联起来,实现全企业的数据共享和数据交流。
2、建设矿山信息化基础代码库,实现矿山信息化
通过建立矿山代码中心,制定、规范矿山基础代码和指标体系,重点建设KPI(Key performance index)体系。通过基础性数据的建设,使矿山企业数据具有统一标准,达到指标规范、口径一致、数据字典标准,指标解释统一,最终促进和实现数据互动,管理集成。促进和规范矿山企业乃至整个矿业的信息标准化建设。
3、建设矿山数据分析环境,为矿山生产经营管理提供依据
通过建设矿山数据仓库,为矿山高层次数据分析创造应用环境。数据仓库能够从事务型数据库大量的数据中提取出有用的数据,通过数据集成,形成统一的决策支持数据库的存储格式,为矿山管理者和决策者提供所需的数据,并通过对这些数据的深入挖掘和运用先进的分析模型,产生出有助于矿山生产经营管理的重要信息。
5.3数据仓库技术现状
早在二十世纪九十年代,数据仓库在计算机技术领域就已经是非常热门的话题,经过了十几年的发展,其技术受到了普遍的拥护,现已成为信息时代的主要数据管理技术,成为企业信息集成、信息资源开发和决策支持的最佳解决方案。 1、数据仓库的基本特征
1992年,W.H.Inmon在其里程碑式的《Building the Data Warehouse》一书中提出了“数据仓库DW(Data Warehouse)”的概念,将数据仓库定义为:“数据仓库是面向主题的(主题是一个在较高层次将数据集合,主要用于支持经营管理中的决策制定过程”。数据仓库的基本
-8-
http://www.paper.edu.cn
特征为:
(1)数据仓库是面向主题的
数据仓库中的数据是针对特定的客观分析领域组织的,这些特定的客观分析领域称之为主题(Subject),如资源利用率分析、采矿成本分析等。主题是进行数据归类的标准。数据仓库不是泛泛的、无序的数据集合,而是为了支持高效的、按主题分析的特定的数据集合,否则就成为一堆无用的数据垃圾。
(2)数据仓库是集成的
集成是指数据仓库中的信息不是从各个业务处理系统简单地抽取出来,而是经过系统加工、汇总和整理集成在一起的(称为整合),以保证数据仓库内的信息是关于整个企业的一致的全局信息。数据从原有的数据库中按一定的主题和规则抽取出来,在进入数据仓库之前,必须经过整合。主要原因有:①数据仓库的每一个主题对应的源数据,在原来的各分散数据库中存在有许多重复和不一致性;②来源不同的联机系统的数据都与不同的应用逻辑相关联,导致了更加复杂的异构性;③数据仓库中的综合数据需要在源数据的基础上做进一步的加工。
(3)数据仓库的数据量是随时间不断变化的
数据仓库的数据内容随时间不断的变化,表现在以下几个方面:①数据仓库随时间演进不断增加新的数据内容;②数据仓库随时间演进不断删除旧的数据内容;③数据仓库中包含有大量的综合数据,它们很多与时间有关系,如按照时间段进行综合,或隔一定的时间片进行抽样等。这些数据要随时间不断地进行重新综合。所以。数据仓库中的每个键都包含时间项,以标明数据在时间流程中的属性。
(4)数据仓库的数据是稳定的
数据仓库的数据主要是相当一段时间内的历史数据,用作企业决策分析,所涉及的数据操作主要是数据查询,几乎不更新。数据仓库的数据反映的内容,是不同时间点的数据快照的集合,以及基于这些快照进行统计、综合和重组而导出的数据,而不是联机处理的数据。
数据仓库是有数据库发展而来的,数据库技术以及数据库的书记组织方法等在数据库中也得到了充分的体现和应用。但数据仓与数据存在本质上的区别,如表1所示。
表1 传统数据库与数据仓库的区别
项目 数据仓库 数据模型 访问方式 负载程度 事务输出量 操作需求 更新频率 数据新鲜度 操作过程
2、 数据挖掘技术
传统数据库
与生产经营相关的细节数据 关系的、层次的或索引的 经常是随机的读写操作
事务处理量大,但每次操作数据量少一般很少 事先可知道 非常频繁
实时存取当前最新数据 面向应用的事务驱动
数据仓库
与决策支持相关的综合信息 关系的/多维的 经常是只读操作
查询量少,但每次操作数据量大 可能非常大 事先不知道 几乎不更新 只保存过去的数据 面向分析的分析驱动
数据挖掘是一种决策支持的分析过程。数据挖掘定义为“从大量数据中提取正确的、非
-9-
http://www.paper.edu.cn
平凡的、未知的、有潜在应用价值并最终可为用户理解的模式”。数据挖掘主要基于人工智能(AI),机器学习,统计学等技术,高度自动化的分析企业原有的数据,做出归纳性推理,从中挖掘出潜在的模式,预测趋势,帮助企业的高层决策者调整策略,减少风险,做出正确的决策。
数据挖掘是一种有效地从大量的数据中发现潜在的数据模型(Patterns),做出预测的分析工具,它是人工智能、机器学习、数理统计学神经元网络等技术在特定的数据库领域中的应用。DM的分析过程是自动的(这是与其他的分析工具的最大区别)。DM的用户不必提出确切的问题,而只需DM去挖掘隐藏的模式并预测未来的趋势,这样有利于发现未知的事实。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述性(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。预测型模式所使用的数据也可以是明确知道结果的。描述型模式不能直接用于预测。在应用实际中,往往根据模式的实际作用细分为以下6种:
1、关联模式(Association Rules):发现关联规则就是为了挖掘出隐藏在数据间的相互关系,即在给定的事务集合中发现所有的关联规则。
2、序列模式(Sequential Patterns):序列模式分析和关联方法相似,其目的也是为了挖掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。
3、时间序列模式(Schedule Sequential Patterns):时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周期性的时间定义如星期、月、季节、年等,不同的日子如节假日可能造成的影响,日期本身的计算方法,还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有多大的影响力)等。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好的预测将来的值。
4、分类模式(Classification):分类规则的挖掘实际上就是从数据库对象中发现共性并对这些共性进行描述的过程。
5、回归模式(Regression Analysis):回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。
6、聚类模式(Cluster Analysis):聚类分析的目的是把分类对象按一定的规则分成组或类,这些组或类不是事先给定的,而是根据数据特征而定的。 3、数据仓库的主要研究内容
作为一个新兴的研究领域,数据仓库发展得很快,许多大学和科研机构都在这个领域进行着广泛深入的研究,数据仓库的主要研究内容包括数据仓库的建模方法、数据抽取清洗和加载、数据仓库的数据更新和性能优化、元数据的管理、数据立方计算以及基于数据仓库的数据分析技术等问题。
数据仓库的建模一般是指为OLAP建模,即在数据仓库的基础数据之上,建立数据立方及数据集市的方法。比较常用的数据仓库的建模方法有如星型模式、雪花模式、星座模式等。数据仓库建模框架和从企业操作型系统的数据模型导出数据仓库模型的方法是大家比较关注的问题。
元数据是用户存取和访问数据仓库的接口,是数据仓库管理员管理和维护数据仓库的技术依据,因此是数据仓库系统中非常关键的部分。
数据仓库多采用“星型(star schema)”或“雪片(snow-flake)”模式,其优点是可以方便的组织层次结构数据。在层次结构下,当基表方生变化时,如何传播变化,如何高效维护各级实现图的一致性,是实现“下钻”和“上翻”的关键。层次问题是数据仓库必须解决好的一个
-10-