10.3772/j.issn.1000-0135.2009.04.013
网络资源命名及用户命名行为的分析
网络资源是指通过互联网传播共享、以文件目录为主要存储组织结构的内容,如书、讲义、音乐等.每个资源的内容具有完整独立性.它们是数字图书馆、教学资源库、专业内容库藏的重要组成.网络资源的一大特点是命名模式不规范,给检索利用带来极大不便.本文以2003~2006年间搜集的61万文件构成的16 284个网络资源为对象,用统计的方法考察网络资源命名特点及其中体现的用户命名习惯.包括资源及其内部子目录、文件的名字长度分布,字符类型熵、常用符号、高频片段模式、语义类型等,并分析无序命名中蕴含的用户命名习惯.本文的意义一方面有助于从混乱命名中净化和提取对检索查询有用的信息,另一方面有助于揭示网络用户参与海量网络资源共享的行为习惯.
互联网、网络资源、名字长度分布、熵、命名模式
28
TU4;TQ1
国家科技支撑项目"现代服务业共性技术支撑体系与应用示范工程"2006BAH02A10;广东省重点实验室基金项目CCNL200601;国家科技基础条件平台项目2005DKA64001生物信息学网络计算应用系统资助
2009-08-20(万方平台首次上网日期,不代表论文的发表时间)
共11页
582-592