目前自动化和数据库技术已经渗透到广泛的工业生产过程中,在这些过程的实时数据库中积累了大量的系统运行数据,其中蕴含了许多与工业过程控制、参数优化、产品质量以及生产管理有关的信息,它们为数据挖掘技术在复杂工业过程领域的应用提供了广阔的平台。 本论文以复杂工业生产过程为研究背景,以分类关联规则挖掘算法为研究主线,对数据挖掘流程中几个重要阶段所包含的具体技术和内容(数据预处理技术、探索性分析方法、数据挖掘建模及实施应用)分别进行了研究。同时结合实际工程项目(某冶炼企业铅烧结烟气WSA制酸过程关联规则挖掘),进行了具体的实施和应用。 本论文的主要研究工作概括如下, 在数据预处理阶段,提出了一种多变量监督型离散化(MSD)算法针对工业过程数据的特点(变量多、耦合强、数据处理量大),本论文提出一种多变量监督型离散化算法。该算法分两层实现:首先利用聚类算法进行粗离散化(在该离散化过程中充分考虑了数据集中多个条件变量间的相关信息);然后运用Chi2离散化算法进行细离散化(该离散化过程中充分吸取了数据集中的分类信息)。该离散化算法充分利用数据集的分布特征和分类信息,实现了对数据集的自动离散化。对比测试分析和实践应用均证明该算法具有良好的离散化效果。 在建模阶段,提出了三种数据挖掘模型 (1)提出了一种模糊分类关联规则挖掘(FCARM)模型在现有分类关联规则挖掘算法的基础上,本论文提出一种模糊分类关联规则挖掘模型。该模型有如下贡献:第一,引入一种新的基于距离的支持度定义;第二,将多变量监督型离散化算法引入到连续属性的离散化过程中,增强了模型的离散化效果。第三,进一步将模糊集概念引入模型中,克服了属性划分过程带来的边界过硬的缺点。最后运用此模型对芳烃抽提工业过程的历史数据进行了挖掘。 (2)提出了一种基于模糊分类关联规则集(fuzzyCARs)的模糊系统构建方法在传统的模糊系统建模过程中,存在两个较难克服的困难:其一是数据对象的输入空间难以划分,它集中体现在难以确定每个属性的划分区间数和相应的划分点;其二为由高维数据的采样稀疏性引起的“维数灾难”问题。为解决上述问题,本论文提出一种利用模糊分类关联规则集进行模糊系统构建的新方法,通过引入MSD离散化方法以及fuzzyCARs中的有效规则集,该方法很好地解决了上述两个困难。最后,相应的对比测试结果也验证了此结论。 (3)提出了一种新型的适于工业过程应用的模糊路径查询系统前述模型更多地集中于对历史数据的离线分析,为了更好地配合工业过程自动运行的需要,本论文提出一种可以在线运行的数据挖掘系统:模糊路径查询系统。该系统由两部分组成:规则库和查询系统。该系统具有以下特点: (a)可以对当前的操作状态提供实时评估。(b)给出当前工况下的最“优”操作建议。(c)可以实现众多查询功能(相似工况查询,历史最佳操作,故障信息等)。(d)系统规则库具有自动更新功能。最后,将模糊路径查询系统运用于PX吸附分离过程。 在实施应用方面,完成了“某冶炼企业铅烧结烟气制酸过程关联规则挖掘”项目 在该项目实施中,通过对铅烧结烟气制酸过程的历史数据进行挖掘,实现了过程变量间的关联分析,找到了影响制酸浓度的关键因素,并给出相应结果的可视化图形呈现。文中详细介绍了整个数据挖掘过程的实现步骤(数据采集、预处理、探索性分析、模糊分类关联规则挖掘模型应用),并对挖掘结果进行了讨论。目前该软件已通过调试,在现场得到应用。
- 作 者:
- 任佳
- 学科专业:
- 控制科学与工程
- 授予学位:
- 博士
- 学位授予单位:
- 浙江大学
- 导师姓名:
- 褚健苏宏业
- 学位年度:
- 2006
- 研究方向:
- 语 种:
- chi
- 基金项目: