Page 68 - 《中国图书馆学报》2013年第1期
P. 68

U∈M,TCN,而且满足 f( U) =T,g(T) =U。 则称       取到满足阈值要求的规则.因此研究中采用大于
          U是概念(U.T)的外延,代表被调查用户的子群类                50%的阈值,设置最小支持度为60%.最小置信度
          别:T是概念( U,T)的内涵,代表相关用户子群提               为70%.得到满足阈值要求的高校学生用户知识需
          出的知识需求特征。 例如,表 2中“U4”行“T3”列             求间关联规则(见表3)。
          为“ ×”,表示“U4(博士研究生)”用户群提出了
                                                    表 3 高校学生用户开放存取知识需求间关联规则
          “T3(一站式集成)”这一知识需求特征。
              依据形式概念分析( FCA)原理,若(Ui ,Ti ) 、
          (Uj ,Tj)是某个背景上的两个概念,而且 Ui ∈ Uj,则
          称(Ui,Ti)是(Uj ,Tj) 的子概念,(Uj,Tj) 是( Ui ,Ti )
          的超概念,并记作( Ui,Ti )≤(Uj ,Tj) ,其中的关系
          “≤”称为概念的“层次序”。 形式背景中所有概念
          用这种“序”组成的集合称为该形式背景上的概念
          格。 采用上述形式概念分析的方法,由表 2形式背
          景导出相应的高校学生用户知识需求概念格 Hasse
          图(见图3) 。
                                                      表3 中的关联规则表述为“(条件) (支持度)
                                                  一(结论)(置信度)”,其含义为“具有(支持度) 的
                                                  被分析对象满足(条件) ,其中具有(置信度)的被
                                                  分析对象满足(结论)”。 以规则“R田01”为例,“(13
                                                  T4 T7) (63%) 一(T6) (100% )”的规则表达式说明
                                                  在被调查的用户对象中.有63%的用户子群(非用
                                                  户个体)对开放存取同时提出 了“T3(一站式集
                                                  成)”、“T4(传统期刊刊载)”和“T7(文章被引率)”
                                                  的知识需求,其中有 100%的用户子群还会提出
           图3 高校学生用户开放存取知识需求概念格 Hnsse图           “T6(文章创新性)”这一知识需求。 也就是说,如
                                                  果一个高校学生用户群体同时关注开放存取是否
              图3中,各节点之间的多重继承关系反映了高                为一站式集成和传统期刊刊载以及文献的被引用
          校学生用户中不同开放存取知识需求特征之间的                   情况,则其必定还会关注文献的创新程度。 从这个
          关联关系。 借助形式概念分析在提取频繁项集方                  意义上讲,一方面可以借助关联规则推理出用户可
          面的优势‘9 J.利用主流的形式概念分析工具软件                能存在的知识需求;另一方面,在无法量化某一文
          (ConExp、Lattice Miner等)‘ ‘o] ,可以获取满足规则  献的创新程度的情况下,文献的被引用率和是否被
          筛选阈值要求的各类知识需求之间的关联规则。                   传统期刊刊载可以提供一个很好的参照指标。 从
                                                  表3 中还可以看出.“T3(一站式集成) ”、“T4(传统
          3.2 用户知识需求关联规则的提取                       期刊刊载)”、“m6(文章创新性)”和“T7(文章被引
              关联规则的提取需要一定的支持度与置信                  率)”之间存在着不同程度的关联关系。 而“Tl (低
          度.尽管研究者可以根据研究目的、任务等自行设                  成本或免费)”和“T2(发文时间)”等知识需求与其
          置支持度与置信度阈值,但一般在大于 50%阈值                 他知识需求关联不大。
          的情况下获得的关联规则具有更显著的支持力。                      将图3 中的概念格进行转置I 111后,可以进一
          然而过大的阈值将遗漏许多重要规则,甚至无法提                  步获得高校学生用户子群间的关联规则。 仍然采
   63   64   65   66   67   68   69   70   71   72   73