数据分析实验平台使用说明


          一、本平台目前仅能进行数据库的关联规则分析

          二、关联规则原理及使用说明

    1. 关联规则是形如XY的蕴涵式,其中, XY分别称为关联规则的先导(antecedentleft-hand-side, LHS)和后继(consequentright-hand-side, RHS)

    假设I是项的集合。给定一个交易数据库D,其中每个事务(Transaction)tI的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含XY的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

    2.关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含AB两个项目的2-itemset为例,我们可以经由公式(1)求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large kFrequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。

          关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小置信度(Minimum Confidence)的条件门槛下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式(2)求得,若置信度大于等于最小置信度,则称AB为关联规则。

         3.关于关联规则的改进。本平台针对关联规则进行了修改,适合使得其由用于单维、事务性数据库分析改为用于对关系型、多维数据库进行运算。

                 表1               本平台适应数据库类型举例

          以上表格为可直接运行表格,最左侧应该为每条数据的名称,如第一行为序号1、第二行为序号2,为了提高运算效率进行了舍弃。

          4.结果判读方法。

    表2                                         数据分析结果表

          指标A与B,代表输出的是AB类指标的关联结果,AB次数代表AB指标出现的次数,AB概率,代表AB同时出现,占总条数的比率。B概率代表A出现时,B同时出现的概率,A概率代表B出现时,A同时出现的概率。

    三、关联规则的意义

    数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

    关联规则只能指出数据库中指标之间可能存在的联系,只能为我们指出研究探索的方向,它给不出出现此现象的原因,所以关联规则的结果还需要我们去进行研究和探索,才能更充分的挖掘出数据的规律。

    四、关于数据库的限制

    为了提高运算效率,本平台对数据库的指标进行了限制,具体如下:

    1、每类指标指标类型不能超过10个,如表1 中,成果类别分应用技术、软科学和基础理论,它有三个类型小于10个可以运行。

    2、数据库中不能有空白项,如有请自行进行处理。

    最后,如有其它需求与疑问,请与我平台联系。

    联系电话:0311-83827244   张先生

    E-mail:sjzkjcg@163.com