邹永利,冯静娴,郑荟.学术文献的文体特征及其检索意义—计算机科学文献与相关新闻报道文体的比较研究[J].中国图书馆学报,2014,40(2):33~40
Stylistic Characteristics and Retrieval of Chinese Academic Literatures:A Comparative Study on the Stylistic Characteristics between Academic Papers and Press Reports of Computer Science
学术文献的文体特征及其检索意义—计算机科学文献与相关新闻报道文体的比较研究
Received:September 01, 2013  
DOI:
Key words:Stylistic characteristics  Computer science  Academic literature  IT news  NSIRS system
中文关键词:  文体特征  计算机科学  学术文献  IT新闻  NSIRS系统
基金项目:本文系国家社会科学基金项目“网络中文学术文献的自动识别与检索研究——基于学术文献文体、链接及图文相关度的研究与系统开发”(编号:10BTQ049)的研究成果之一。
Author NameAffiliationE-mail
Zou Yongli 中山大学资讯管理学院,广东 广州 510006 isszyl@mail.sysu.edu.cn 
Feng JingXian 中山大学资讯管理学院,广东 广州 510006  
Zheng Hui 中山大学软件学院,广东 广州 510006  
Hits: 4342
Download times: 2689
Abstract:
Computer science academic documents have distinctive stylistic features that can be explored to facilitate the automatic identification and retrieval of Chinese computer science academic papers on the web. This paper establishes a computer academic literature corpus and an IT news corpus to find the different typical expressions, average length of sentences, ratio of Chinese characters to Roman alphabets, and gives them different weights. Finally, this paper applies the results to Baidu-based NSIRS system. Precision evaluation over the NSIRS shows significant advantage of our approach over previous study using the same system. 2figs. 4tabs. 14refs.
中文摘要:
      计算机科学学术文献具有独特的文体特征,且部分特征能够用于计算机科学网络中文学术文献的自动识别与检索,提高计算机科学学术文献的相对检准率。本文通过建立计算机学术文献语料库与IT新闻语料库,对计算机科学学术文献和IT新闻在特有表述、平均句长、中西文比例三方面的文体特征进行提取与加权,应用于基于百度的网络中文学术检索系统(NSIRS)中。结果显示,本研究提取并设定的文体特征能有效提高NSIRS对计算机科学学术文献的检索效率,从而证明发掘并应用特定学科文献独特的文体特征的意义。图2。表4。参考文献14。
View Full Text   View/Add Comment  Download reader