基于数据挖掘技术的网页个性化推荐系统分析
来源:华拓科技网
第28卷第6期 新乡学院学报:自然科学版 20I1年l2月 Vb1.28 NO.6 Journal of Xinxiang University:Natural Science Edition Dec.2Ol1 基于数据挖掘技术的网页个性化推荐系统分析 穆瑞辉,张武强 (新乡学院计算机与信息工程学院,河南新乡453003) 摘 要:介绍了“网络迷航”现象及WEB数据挖掘技术,讨论了网站用户浏览行为及获得用户浏览行为模式 的方法,构建了模拟网页个性化推荐系统,使网站的页面设计更具个性化,节省搜索网页的时间. 关键词:网络迷航;数据挖掘;数据过滤 中国分类号:TP393.4 文献标志码:A 文章编号:1674—3326(201I)06—0539—02 A! ̄ltlysis of Web Personalized Recommendation System Based on Data Mining MU Rui-hui,ZHANG Wu-qiang (Colleg ̄e 9f t ̄omputer and Information Engineering,Xinxiang University,Xinxiang 453003,China) Abstract:This artigle introduces“network trek”phenomenon and Web data mining,discusses the site users’ browsing actions and the ways to get models of the actions.Simulation web personalized recommendation system is built,which makes the web design more personalized and save time for searching Web. Key words:network trek;data mining;data filtering 0 引言 校园网上的信息数据量巨大,数据之间的关联性强,学生可自由浏览不同的教学数据信息,这就容易 使学生在网站上迷路,不清楚自己在网站上的位置,不知道真正需要哪些信息,就像在茫茫大海中迷失方 向,却不知道该怎么办一样,我们将之称为网上学习中的“网络迷航”现象…. 如何避免或消除学生在浏览网络的过程巾m现“网络迷航”现象,以取得良好的教学效果,是值得研究 的问题.因此,在教学网站的建设上,要充分发挥超链接的优点,以技术优势调动学生学习的积极性,引 导学生接受有效信息,提高学习效率,减轻心理压力,我们将其称之为“导航”12-3]. 在网站上,我们必须设计适合学生学习的引导方法,这就要求我们要充分了解学生的浏览路径,挖掘、 提取学生对某些页面的偏好度及浏览路径,这就是网站个性化推荐系统设计问题. 1 WEB数据挖掘技术 用户在网站上查阅数据信息时,总希望找到没有看到的数据信息,这就产生了WEB数据挖掘技术f引, 即分析、提取WEB网站数据库中的数据信息,找到有用的数据信息及其关联关系. WEB数据挖掘技术包括数据库数据挖掘的个性化技术、关联规则挖掘技术、分类挖掘技术、聚类挖掘 技术和预测挖掘技术等【5】.在这些挖掘技术中,关联规则挖掘技术是分析、提取数据信息,找到数据信息之 间的潜在关联关系的挖掘技术. 2网站用户浏览行为分析 应 数据挖掘技术就是分析网站描述文件和日志文件,得到用户浏览模式,最后,将用户偏爱度高的 网贞推荐给用户.通过分析和提取用户浏览行为模式,调整网站站点的内容和结构,使网站更能满足不同 浏览J+】户的不同需求,这就是网站个性化 j. 收稿日期:201 J.09.28 修回日期:2011一Ij—I2 作者简介:穆瑞辉(】98O一),男,河南辉县人.讲师,研究方向:软件设计与开发.E-mail:muruihui@163.corn ・540・ 新乡学院学报:自然科学版 根据网站个性化的理念,考虑浏览用户的教育背景、性别、兴趣、爱好、年龄等静态特征,根据其浏 览行为,动态地充实和调整网站内容与结构,以满足用户的需求.为此,网站必须随时记录和跟踪浏览用 户的浏览行为,由此推断用户的兴趣、爱好;把数据资源组织好、整理好、规划好;提取有个性化、针对 性的数据信息,以文字或图片、图形的方式推荐给用户. 我们可以通过外部数据信息和系统内部的数据信息实时跟踪用户,用户对系统}隹荐的数据信息资源的 反馈信息和评价信息就是网站个性化系统的外部数据;所有的数据信息都是网站个性化系统自动完成的. 通过用户的前进、后退、搜索(查找)网页内容、书签、滚动条和标记等行为来分析用户浏览行为模式,其 中浏览用户搜索、查找网页内容和滚动条的行为最能体现其兴趣、爱好. 分析、提取网站日志文件记录的信息 构建或及时调整用户描述文件,这些信息包括用户浏览某网页 的频率、次序和停留时间等.虽然根据网页的点选次数获得的数据信息不完整,但网站个性化系统可以根 据这些信息提供以下帮助:1)根据用户浏览网页的次序和频率,可以分析用户的偏爱度.2)可以根据用户对 某网页的偏爱度,便于及时调整网站个性化系统.3)根据用户的浏览频率、次序和停留时间等数据信息,分 析、推测用户下一步的意向,以便及时提供用户感兴趣的信息. 网站日志记录挖掘技术是分析和提取数据库服务器、客户机和代理数据库服务器获得网站日志记录的 技术,但由于Applet和Script上没有它的代理功能,或关闭了其代理功能,所以,现在大多数网站都是通 过分析和提取数据库服务器提供的数据信息,应用网站日志记录挖掘技术的,网站Et志记录可以收集用户 访问数据信息的浏览行为,它有扩充记录文件格式和ASCII记录文件格式. 网站个性化系统能够提供满足用户需求的数据信息,主要分析用户浏览行为模式,因为用户在某网页 的存取次数、停留时间体现了他对该网页内容的偏爱度.网站个性化系统可以根据网站日志文件分析、提 取有用信息,更好地掌握网站的访问量,了解用户的浏览行为,为增强网站个性化系统的功能提供帮助.关 联规则算法就是众多数据挖掘算法中侧重分析用户浏览行为的算法.下面介绍关联规则. 存在于事务之间的关联性就是关联规则.用形式化语言描述如下:P—Q(可称为“尸关联Q”或“Q关 联于P”),可信度和支持度是关联规则算法的分析评价准则.1)可信度.其公式是:同时f}I现项目P和项目 Q的交易数量/项目P}=}1现的交易数量.2)支持度.其公式是:交易数量中项目JP和项目Q同时出现的数量/ 总交易数量.关联规则的支持度和可信度的设定值不能过高,也不能过低,过高就会使得一些潜在的关联 规则被排除在外。过低就会产生一些毫无关联的规则,误导分析和提取重要的数据信息,因此,这两个标 准的设定值一定要适宜.用户在浏览网贞时足根据自己的兴趣、爱好来决定取舍的.并依靠网页上超链接 功能访问的,所以,可以通过分析用户浏览行为模式,提取用户对某个网页的偏好度和对网页内容的兴趣 爱好.分析用户浏览行为方式的目的,是为网站个性化管理系统提供参考数据,以便更好地调整网站结构, 为用户提供优质服务. 3 结束语 通过介绍“网络迷航”现象、WEB数据挖掘技术,讨论了网站描述文件和记录义件的数据挖掘、信息过 滤和分析问题,得到用户浏览行为模式;分析了用户偏好度和页面问的相关性,挖掘与用户浏览网页关联 度高的页面,通过导航栏的方式推荐给用户. 参考文献: f1】王成伟,李克东.基于Web的远程网络教学系统开发的关键技术【J】.上海师范大学学报,2000,12(11):5O一56. [2】HA1N J.Neural Networks A Comprehensive Foundation[M].影印版.北京:清华大学出版社,2001:600—622. f31范斌.基于Web服务的分布式数据挖掘系统研究fD].武汉:武汉理工大学计算机科学与技术学院,2004. f41 Kantard.数据挖掘一概念、模型、方法和算法【M】.四清,等.译.北京:清华大学出版社,2003:99—103. [5】王永庆.人工智能原理与方法【M].西安:西安交通大学出版社,2000:54. 【责任编辑邢怀民】