Page 68 - 《中国图书馆学报》2013年第1期
P. 68
U∈M,TCN,而且满足 f( U) =T,g(T) =U。 则称 取到满足阈值要求的规则.因此研究中采用大于
U是概念(U.T)的外延,代表被调查用户的子群类 50%的阈值,设置最小支持度为60%.最小置信度
别:T是概念( U,T)的内涵,代表相关用户子群提 为70%.得到满足阈值要求的高校学生用户知识需
出的知识需求特征。 例如,表 2中“U4”行“T3”列 求间关联规则(见表3)。
为“ ×”,表示“U4(博士研究生)”用户群提出了
表 3 高校学生用户开放存取知识需求间关联规则
“T3(一站式集成)”这一知识需求特征。
依据形式概念分析( FCA)原理,若(Ui ,Ti ) 、
(Uj ,Tj)是某个背景上的两个概念,而且 Ui ∈ Uj,则
称(Ui,Ti)是(Uj ,Tj) 的子概念,(Uj,Tj) 是( Ui ,Ti )
的超概念,并记作( Ui,Ti )≤(Uj ,Tj) ,其中的关系
“≤”称为概念的“层次序”。 形式背景中所有概念
用这种“序”组成的集合称为该形式背景上的概念
格。 采用上述形式概念分析的方法,由表 2形式背
景导出相应的高校学生用户知识需求概念格 Hasse
图(见图3) 。
表3 中的关联规则表述为“(条件) (支持度)
一(结论)(置信度)”,其含义为“具有(支持度) 的
被分析对象满足(条件) ,其中具有(置信度)的被
分析对象满足(结论)”。 以规则“R田01”为例,“(13
T4 T7) (63%) 一(T6) (100% )”的规则表达式说明
在被调查的用户对象中.有63%的用户子群(非用
户个体)对开放存取同时提出 了“T3(一站式集
成)”、“T4(传统期刊刊载)”和“T7(文章被引率)”
的知识需求,其中有 100%的用户子群还会提出
图3 高校学生用户开放存取知识需求概念格 Hnsse图 “T6(文章创新性)”这一知识需求。 也就是说,如
果一个高校学生用户群体同时关注开放存取是否
图3中,各节点之间的多重继承关系反映了高 为一站式集成和传统期刊刊载以及文献的被引用
校学生用户中不同开放存取知识需求特征之间的 情况,则其必定还会关注文献的创新程度。 从这个
关联关系。 借助形式概念分析在提取频繁项集方 意义上讲,一方面可以借助关联规则推理出用户可
面的优势‘9 J.利用主流的形式概念分析工具软件 能存在的知识需求;另一方面,在无法量化某一文
(ConExp、Lattice Miner等)‘ ‘o] ,可以获取满足规则 献的创新程度的情况下,文献的被引用率和是否被
筛选阈值要求的各类知识需求之间的关联规则。 传统期刊刊载可以提供一个很好的参照指标。 从
表3 中还可以看出.“T3(一站式集成) ”、“T4(传统
3.2 用户知识需求关联规则的提取 期刊刊载)”、“m6(文章创新性)”和“T7(文章被引
关联规则的提取需要一定的支持度与置信 率)”之间存在着不同程度的关联关系。 而“Tl (低
度.尽管研究者可以根据研究目的、任务等自行设 成本或免费)”和“T2(发文时间)”等知识需求与其
置支持度与置信度阈值,但一般在大于 50%阈值 他知识需求关联不大。
的情况下获得的关联规则具有更显著的支持力。 将图3 中的概念格进行转置I 111后,可以进一
然而过大的阈值将遗漏许多重要规则,甚至无法提 步获得高校学生用户子群间的关联规则。 仍然采