期刊专题

全部期刊文献160条结果

全文计量分析的实践与展望:理论、方法与应用 ——2022全文本文献计量分析学术沙龙综述 Practice and Prospect of Full-text Bibliometric Analysis:Theory,Method and Application——A Review of the 2022 Academic Salon on Full-text Bibliometric Analysis

周海晨章成志胡志刚徐硕杨思洛李恺

2022年12月1日—2日,由中科院成都文献情报中心主办、科技创新评价研究中心(SERC)承办"第五届科学计量与科技评价天府论坛"在成都举办.由章成志等人发起的第三届"全文本文献计量分析"沙龙是天府论坛的一项重要活动,吸引了百余位专家学者的参与和交流.本文通过对沙龙嘉宾的发言与研讨内容进行梳理与总结,将沙龙的主要内容归纳为理论研究、技术方法与应用方向等方面,以期揭示国内外全文本文献计量分析的研究现状和发展趋势.

全文本文献计量全文计量引文内容颠覆性技术

基于机器学习的文本聚类描述算法研究 Document Clustering Description Algorithm Based on Machine Learning

章成志

传统的聚类算法直接用于文本聚类这一应用上,存在的突出问题就是传统的聚类算法只负责将对象进行聚类,不负责对聚类后生成的类簇进行概念描述和解释.标注文本集合聚类后生成的类簇被称为聚类描述问题.聚类描述可以帮助用户迅速确认生成的文档类别与其需求是否相关,它是文本聚类应用中一项重要并富有挑战性的任务.针对文本聚类结果可读性较弱问题,本文提出了一种增强聚类结果的可理解性与可读性的算法,即基于支持向量机的文本聚类结果描述算法.实验结果表明基于支持向量机的聚类描述算法所取得的效果要优于常规的聚类结果描述方法.

聚类描述文本聚类支持向量机机器学习

文本聚类结果描述研究综述 Survey on Document Clustering Description

章成志

首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法.

文档聚类描述文本聚类文本挖掘

一种基于语义体系的同义词识别研究 Research On Synonyms Dictionary- Based On Recognition of Synonyms

章成志

针对基于字面和词素相似度识别同义词的不足之处,首次引入(以下简称),作为语义体系,提出了基于语义体系的同义词识别算法,并进行了词汇间的语义相似度度量,实现了同义词识别.实验结果表明,此方法在效率上远高于基于字面、词素相似度识别方法.

同义词识别<词林>语义词典相似度算法

信息检索系统的相关词提示技术与评测 Technologies for finding clues for correlated words in information retrieval systems and its evaluation

章成志徐小琴

在Web信息检索中,为了明确用户的查询需求,很多搜索引擎和全文数据库提供了相关词提示功能.本文简要介绍了Web信息检索中相关词提示的获取技术,并对相关词提示效果进行实际调查分析.从关键词库中随机抽取若干关键词,在选定的搜索引擎和全文数据库上进行信息检索,获取抽样关键词的相关提示词.通过关键词检索、人工打分和数据统计,进行查询扩展分析、查询式专指度分析和查准率分析,给出相关词提示在改善检索效果和用户满意度方面的综合评价.

信息检索相关词提示查询扩展信息聚类查准率

基于引文内容的单篇学术论文参考文献网络结构研究 Study on the Reference Network of Single Academic Article Based on Citation Content

卢超章成志

[目的]通过对参考文献在学术论文正文中的引用及分布情况的分析,探究参考文献的网络结构形态.[方法]基于575篇结构化的学术论文数据,利用文本抽取、相似度计算等技术,构建每篇学术论文的参考文献的网络结构,结合实例分析参考文献之间的内在联系及其可能的原因.[结果]参考文献间的相似度与其之间的相对距离有一定的负相关性.单篇学术论文中亦存在多样、复杂的网络结构形态.[局限]部分全文数据引文标注不够规范,影响实验结果的准确性;参考文献之间相对位置的衡量仍不够精确,需要深入挖掘文本加以解决.[结论]从实验结果来看,参考文献的网络结构大致可分为三类,其形成的原因各有不同.单篇论文中参考文献网络仍需深入研究.

引文分析引文内容网络分析文本挖掘

基于主题聚类的学科研究热点及其趋势监测方法 Detecting Hotspot and Trend of Disciplines Using Topic Clustering

章成志梁勇

常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题.因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性.本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势.实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善.

学科热点监测主题聚类主题抽取文本聚类

利用作者主题模型进行图书馆UGC的主题发现与演化研究 Topic Detection and Evolution of Library User Generated Content Based on Author-Topic Model

赵华章成志

通过对在线社交网络上图书馆用户生成内容(UGC)的分析,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况.文章以新浪微博为数据源,获取一定时段我国图书馆微博的内容数据,依据作者主题模型获取候选主题,通过对候选主题进行聚类确定合适的话题数,根据作者主题模型结果计算相邻时间片主题之间的相似度,在此基础上分析主题的演化,最终完成不同图书馆主题分布及演化的差异分析.实证研究结果表明:目前我国图书馆微博主要关注新书推荐、讲座信息、图书馆服务、图书信息等主题;各月份的关注主题差异不大;除了共同关注的图书馆服务、新书推荐等话题之外,上午时段关注音乐和大学生相关话题,下午关注讲座信息和公益话题,晚上时段关注公益和大学生话题.

主题发现主题演化图书馆微博在线社交网络用户生成内容

学科交叉度的点面关系研究 A Study of Interdisciplinary Degree: From Macro- to Microscopic

徐庶睿卢超章成志

学科交叉研究分为宏观态势研究和微观主题研究,二者相结合的研究甚少.文章通过分析宏观学科交叉和微观学科主题交叉是否存在相关关系,探究学科交叉内部规律.首先采集学术论文,解析学科信息和引文内容,计算学科交叉度(宏观)、 主题学科交叉度和主题交叉度分布熵指标,探究指标间的相关关系;考虑到存在一定量的论文同时从属于多个学科,为规避该影响,设计算法进行对比实验.实证表明:学科交叉度和平均主题学科交叉度呈正相关,学科交叉度和主题交叉度分布熵呈正相关;学科间共有论文对学科交叉度、 平均主题交叉度和主题学科交叉度分布熵的相关性分析影响较小.

引文内容术语交叉学科学科交叉学科主题交叉

用户饮食偏好挖掘及应用研究 Mining and Application of Users' Dietary Preferences

岳子静张颖怡章成志

[目的/意义]饮食是人类生存和发展的基本条件之一.挖掘用户的饮食偏好,能够解释不同用户在饮食习惯上的差异.用户饮食偏好挖掘方法的提出,能够拓宽饮食研究的路线.[研究设计/方法]以“大众点评”网站上的用户评论为数据源,结合情感分析,利用基于关键词的向量空间模型方法构建用户饮食偏好模型,在此基础上为网络用户推荐餐馆信息;并提出一种用户饮食偏好模型的评价方法以评估模型构建的效果.[结论/发现]基于用户近期评论内容构建的饮食兴趣模型能够预测用户未来的饮食偏好.根据用户饮食偏好进行餐馆推荐,可在一定程度上为用户提供感兴趣、高质量的餐馆信息,满足用户个性化的饮食需求.[创新/价值]从情感分析的角度,基于用户生成内容挖掘用户饮食偏好,以满足用户的个性化饮食需求;提出的用户兴趣模型评价方法能够有效分析模型的有效性.

饮食偏好挖掘评论挖掘情感分析用户兴趣建模信息推荐

基于学术论文全文内容的算法使用行为及其影响力研究 Using Behavior and Influence Assessment of Algorithms Based on Full-text Academic Articles

章成志丁睿祎王玉琢

数据挖掘算法已被广泛应用于科学研究与实践中.考察数据挖掘算法在学术论文中的使用情况、进而评估其影响力,能辅助研究者全面了解其所在领域的常用算法,并根据研究任务类型选择相应算法.本文利用学术论文全文内容,对算法的使用行为进行分析,从而考察算法的影响力.具体来说,本文以自然语言处理领域为例,收集整理全国计算语言学会议(CCL)1993—2016年收录的学术论文全文数据,从使用频次、使用位置、使用年代以及使用动机等四个方面全面考察十大经典数据挖掘算法在该领域的使用情况,并在此基础上对算法的影响力进行评估.实验结果显示,十大算法的使用行为存在明显差异,且SVM算法影响力最高,CART与Apriori算法影响力较低.本文研究可为基于数据驱动的相关研究者,尤其是为初学者在算法选择时提供参考.

算法影响力评估使用行为全文内容分析

文本表示方法对微博Hashtag推荐影响研究*--以Twitter上H7N9微博为例 The Impact of Document Representation on Hashtag Recommendation for Microblog---Use H7N9 Corpus on Twitter as Test Dataset

邵健章成志

在总结国内外Hashtag推荐方法和短文本表示方法的基础上,文章利用基于K最近邻(KNN)的Hashtag推荐方法,将微博文本表示为向量然后计算相似度,从语料中选出与目标微博最相似的微博文本,然后抽取候选Hashtag。文章比较了向量空间模型(VSM)、潜在语义分析模型(LSA)、隐含狄利克雷分布模型(LDA)、深度学习(DL)等四种文本表示方法对基于KNN的Hashtag推荐效果的影响。以Twitter上H7N9微博为测试数据,实验结果表明深度学习的文本表示方法在基于KNN的Hashtag推荐中取得最好的效果。

Hashtag推荐K最近邻文本表示深度学习

科研用户博文关键词标注行为差异研究——以科学网博客为例 Difference Research on Keywords Tagging Behavior for Academic User Blog——A Case Study of ScienceNet.cn

张颖怡章成志池雪花李蕾

[目的]为优化标注系统提供依据,同时丰富网络环境下用户标注行为的研究.[应用背景]不同人群的关键词标注行为差异研究是用户信息行为研究中的一个重要方面.[方法]从标注系统使用方式、关键词结构以及标注动机三个角度选取关键词标注比率、用户标注关键词比率、用户标注关键词平均个数、用户标注关键词平均长度以及用户标注关键词重用率5个标注行为指标,分析科学网博客中不同类型用户标注行为的差异.[结果]分析结果发现,不同职业、专业、注册时间、发博文频率以及职称的用户在部分标注行为上存在显著性差异,但不同性别以及学历的用户在主要标注行为上不存在显著性差异.[结论]学术博客可以根据不同类型用户的标注行为差异,对博文标注系统进行优化.

社会化标签关键词标注科研用户标注行为用户信息行为

面向在线社交网络用户生成内容的饮食话题发现研究 Identifying Food Topics from User-Generated Contents in Microblogs

张晓勇周清清章成志

[目的]通过大规模文本聚类技术进行话题检测,并自动拣选优质话题.[方法]以新浪微博上与饮食相关的微博内容为数据源,结合文本聚类与深度学习知识进行话题检测.通过匹配微博发布的月份,将微博划分为四季微博;使用向量空间模型和文本聚类方法,对不同季节的微博进行话题检测,获得候选话题;结合深度学习知识,提出主题覆盖率概念,用以自动评价话题质量,去除低质量话题.[结果]基于主题覆盖率的话题筛选结果符合人工拣选预期,抽取获得主题覆盖率高于0.5的优质话题.[局限]话题检测质量的评价主要以定性评价为主.[结论]通过计算主题覆盖率来自动选择优质话题,该方法效率高,通用性强,获得的话题便于理解,较好地揭示了四季中饮食微博的话题分布.

话题检测用户生成内容主题覆盖率饮食挖掘

社会化问答研究综述 Survey on Social Question and Answer

李蕾何大庆章成志

[目的]了解社会化问答的发展态势和研究内容.[文献范围]在Google Scholar和CNKI中分别以检索词“Social Q&A'”和“社会化问答”进行文献检索,再结合主题筛选,精读并使用追溯法获得社会化问答研究的代表性文献共77篇.[方法]对社会化问答的发展历程和早期研究内容进行介绍,对社会化问答近期的主要研究内容进行归类总结.[结果]目前社会化问答的相关研究主要从问题、答案、用户和平台4个方面展开.[局限]仅将发展历程和研究主题作为探讨核心,未对每个研究主题进行更加细致的探讨.[结论]基于现有的研究内容反映出的研究问题,分别从问题、答案、用户、平台、领域以及应用层面,提出对社会化问答未来研究的建议和展望.

社会化问答问题检索答案质量社会化媒体

学术文本被引片段的自动识别研究 Automatic Identification of Cited Spans in Academic Articles

章成志徐津马舒天

[目的/意义]目前学术文献被引片段识别研究存在两个问题:对于给定的一个引文上下文,其所对应的被引片段句子数量并没有明确的定义;构建特征中很少考虑句子中词语的语义相似度特征.文章基于以上两个角度,对已有的实验方案进行改进,旨在提高被引片段的识别效果.[方法/过程]首先,按照不同的粒度对被引文献进行句子切分,以考察不同粒度切分下被引片段的识别效果,从而确定被引片段的最佳句子数量.随后,在被引片段识别模型中加入词语语义相似度特征,即通过词嵌入进行分布式词向量表示,并依据词汇语义网络本体,度量不同句子中词语间的语义相似度.[结果/结论]实验结果表明,随着句子切分粒度的逐渐增加,被引片段识别效果呈下降趋势;另外,所增加的词语语义相似度特征能够有效地在句子间建立细粒度的语义关联,提高了模型的稳定性,从而提升了被引片段的识别效果.[局限]仅从特征构建的角度对被引片段的识别工作进行优化,提升效果较为有限.模型选择方面,仍局限于使用传统的机器学习算法,未考虑现有的深度学习算法对本工作进行改进.

学术文献被引片段引文分析文本分类语义相似度

我国情报学研究方法体系构建研究的转向突破 The Turning and Breakthrough in Research Paradigm of Intelligence Methodology System

李博闻章成志

[目的/意义]透过国内情报学研究方法体系构建研究式微、研究方法使用情况调查研究兴起的表象,揭示“此消彼长”背后是研究方法世界揭示范式的危机与转向突破.[方法/过程]首先,界定、分疏两类研究,提出研究问题;其次,结合CNKI与万方检索、内容分析法、文献追溯法,获得并梳理53篇相关文献;第三,探讨两类研究进展;第四,就情报学研究方法体系构建研究的范式危机进行论述;第五,比较新旧范式,就转向与突破的必然进行论述.[结果/结论]这种范式转向既是可贵探索也是困局突围的现实途径.新范式不仅有助于建设一个适合中国特色与情报特点的研究方法体系,其确立与完善更能够为科学界提供一个适合时代特征与情报学特征的专门研究方法.[局限]情报学与图书馆学、信息学历史上交叉、关联乃至趋同的关系是毋庸置疑的,文献调查未考虑其他学科领域是不足之处.

情报学研究方法情报研究方法方法论研究范式

悄然兴起的全文计量分析 The Quiet Rise of Bibliometrics Based on Full Text

胡志刚章成志

传统的文献计量学主要基于题录数据展开研究,随着开放获取运动的推进,基于全文数据的文献计量学分析悄然兴起,出现全文引文分析、知识实体抽取、语篇结构功能分析等研究热点.文章从数据基础、研究内容、流程方法3个角度系统阐述全文计量分析的范式和框架.在数据方面,通过回顾分析对象从题录数据到全文数据的变化,展现文献计量学由外在关联到内在本体的演化.在内容方面,选取语词、语句和语篇等不同层面的研究热点,对近年该领域的国内外研究进展和前沿问题进行综述.在方法方面,总结文本分析(包括计算语言学、社会语言学)和计量分析(包括加权分析、序列分析)两类主要的分析范式.

全文计量题录计量学术文本文本分析计量分析

高下载中文学术论文的语言学特征 Exploring Linguistic Characteristics of Highly Downloaded Chinese Academic Journal Articles

陈必坤程孟夏钟周燕章成志

为研究中文学术论文下载次数与语言学特征的关系,文章以图书情报学领域被CSSCI收录的7种期刊发表于2014-2017年的6,257篇学术论文为研究对象,选用8个语言学特征指标测度高下载论文(Top 20%)、低下载论文(Bottom 20%)和全体论文的语言学特征.从中值和均值来看,各期刊高下载论文的标题长度几乎都小于总体论文和低下载论文,摘要词汇多样性、正文长度、正文句子长度和正文词汇多样性整体上大于总体论文和低下载论文.从显著性检验结果来看,整体上未通过显著性检验,但特定平台特定期刊的特定语言学特征指标通过了显著性检验.从样本数据来看,整体上语言学特征对中文学术论文下载次数影响很小,但在特定平台特定期刊语言学特征具有一定影响.

使用数据Usage Metrics语言学特征语言复杂性
1234567下一页
打开万方数据APP,体验更流畅