WEB数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。
WEB数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。
1) WEB数据挖掘分类
Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0的出现而出现的。
WEB内容挖掘(WCM,Web Content Mining) Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程,根据挖掘的对象是文本文档还是多媒体文档又可以分为文本挖掘和多媒体挖掘。
WEB结构挖掘(WSM,Web Structure Mining Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。
WEB使用记录挖掘(WUM,Web Usage Mining) Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
Web使用记录数据除了服务器的日志记录外,还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。 Web使用记录挖掘方法主要有以下两种:
将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;
将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。
WEB用户性质挖掘
如果说Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。
2) WEB数据的特点
异构数据库环境。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。
分布式数据源。Web页面散布在世界各地的Web服务器上,形成了分布式数据源。
半结构化。半结构化是Web上数据的最大特点。Web上的数据非常复杂,没有特定的模型描述,是一种非完全结构化的数据,称之为半结构化数据。
动态性强。Web是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信息和访问记录的更新非常频繁。
多样复杂性。Web包含了各种信息和资源,有文本数据、超文本数据、图表、图像、音频数据和视频数据等多种多媒体数据。
3) 典型的WEB挖掘的处理流程
查找资源:根据挖掘目的,从Web资源中提取相关数据,构成目标数据集,Web数据挖掘主要从这些数据通信中进行数据提取。其任务是从目标Web数据网站日志、网络数据库中的数据等中得到数据。
数据预处理:在进行Web挖掘之前对“杂质”数据进行过滤。例如消除数据的不一致性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话识别等。
模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和分类等技术。
模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发现的规则模式转换为知识
4) 常用的WEB挖掘技术
路径分析技术 它可以被用于判定在一个站点中最频繁访问的路径,还有一些其它的有关路径的信息通过路径分析可以得出。利用这些信息就可以改进站点的设计结构。
关联规则技术 关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品服务。例如:某信息A和B,同时被很多用户浏览,则说明A和B有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。如当当电子书店就采用了这一模式用以推荐相关书目。
序列模式挖掘技术 在时间戳有序的事务集中,序列模式的发现就是指那些如“一些项跟随另一个项”这样的内部事务模式。发现序列模式,能够便于预测读者的访问模式,开展有针对性的服务。
聚类分类技术 发现分类规则可以给出识别一个特殊群体的公共属性的描述,这种描述可以用于分类的读者。聚类分析可以从Web访问信息数据中聚类出具有相似特性的读者,在Web事务日志中,聚类读者信息或数据项能够便于开发和设计未来的服务模式和服务群体。
5) WEB 日志挖掘在客户关系管理?RM)中的应用
客户的获取。在大多数的商业领域中,业务发展的主要指标包括新客户的获取能力。企业的市场部门人员可以采用传统的方法来发展新客户,如开展广告活动;也可以根据所了解的目标客户群,将他们分类,然后进行直销活动。但是,随客户数量不断增长和每位客户的细节因素增多,要得出选择出相关的人口调查属性的筛选条件也会变得很困难。而数据挖掘技术可以帮助完成潜在客户的筛选工作。
客户的保持。随着行业中的竞争愈来愈激烈和获得一个新客户的开支愈来愈大,保持原有客户的工作也愈来愈有价值。在CRM的实施中,企业通过预测,找出可能会流失的客户,并分析出主要有哪些因素导致他们想要离开,在此基础上,有针对性地挽留那些有离开倾向的客户。
客户的细分。细分是指将一个大的消费群体划分为一个个细分群体的动作,同属一个细分群的消费者彼此相似,而隶属于不同细分群的消费者被视为不同的。通过CRM的实施,将产生细分的客户群,企业根据客户提出的要求不断地改善产品和服务,从而使企业不断提高使该客户群满意的能力。
6) WEB日志挖掘在电子商务网站中的应用
作为电子商务网站的运营者不仅要掌握用户在网上关心哪些商品,更重要的是要掌握匿名用户怎么变成注册用户,转化率是多少,匿名用户是直接访问的还是通过搜索引擎链接来的,购买行为如何,业绩是多少等。对于电子邮件市场推广,通过沉默用户分析其沉默时间,根据发出量、返回量、成交量来判断市场推广效果。对于广告市场推广,通过曝光量、点击量、成交量来反映市场推广的效果。
概要统计。网站的概要统计包括分析覆盖的时间、总的页面数、访问数、会话数、惟一访问者、以及平均访问、最高访问、上周访问、昨日访问等结果集。
内容访问分析。内容访问分析包括最多及最少被访问的页面、最多访问路径、最多访问的新闻、最高访问的时间等。
客户信息分析。客户信息分析包括访问者的来源省份统计、访问者使用的浏览器及操作系统分析、访问来自的页面或者网站、来自的IP地址以及访问者使用的搜索引擎。
访问者活动周期行为分析。访问者活动周期行为分析包括一周7天的访问行为、一天24小时的访问行为、每周的最多的访问日、每天的最多访问时段等。
主要访问错误分析。主要访问错误分析包括服务端错误、页面找不到错误等。
网站栏目分析。网站栏目分析包括定制的频道和栏目设定,统计出各个栏目的访问情况,并进行分析。
商务网站扩展分析。商务网站扩展分析是专门针对专题或多媒体文件或下载等内容的访问分析。
7) WEB 商业智能 BI
异常访问分析 一般情况下,正常的用户访问网站都是通过浏览器向网站发送URL请求,操作是一个手动平缓的过程。 所谓“异常访问”,是指不是通过浏览器,而是通过程序进行的一个高速机械化的连续URL请求过程。这包括不良程序黑客攻击、搜索引擎蜘蛛程序对网站的访问等。 “异常访问”主要包括5个功能:异常访问分析、搜索引擎访问分析、发生错误分析、异常URL分析、时段访问分析。 通过“异常访问分析”,可以让用户发现异常访问行为和访问规律,通过对URL请求 频度、服务器处理时间、请求流量等时序图形趋势分析,确定黑客攻击点,排查软件错误、诊断服务器处理能力、网站Internet带宽限制“瓶颈”所在点。
频道关联分析 频道关联分析应用对象是内容管理者。网站在内容服务层面被抽象为“频道-子频道-内容”,组成“网站结构树”。关联分析的目的,是发现在一个事物中,各个元素的关联关系,通过关联关系的发现,指导“关系设置”,进而引导事物向有利于管理者主观倾向的方向发展。
特定关联分析 “频道关联分析”是在内逻辑层面的关联分析,对于“广告”和用户特别关心的Page关联分析是网站管理者希望掌握的数据。 哪些Page对于广告的贡献有多大?看广告的人更多的看了哪些Page? 特别推出的内容与网站的其他URL有哪些关联?关联程度如何? Web-DM的“特定关联分析”给出深入分析结果,同时以简单直观的形式展示给用户。
建议继续学习:
- 数据分析中常用的数据模型 (阅读:6343)
- 五个免费开源的数据挖掘软件 (阅读:5118)
- 谈谈与数据打交道的工作 (阅读:4285)
- 如何对统计数据进行分析 (阅读:3862)
- 页面停留时间和网站停留时间详解 (阅读:3661)
- 浅析十三种常用的数据挖掘的技术 (阅读:3491)
- 使用Weka进行数据挖掘 (阅读:3143)
- 音乐智能推荐 (阅读:3122)
- 统计指标和术语汇总 (阅读:2720)
- 如何萃取海量数据的价值 (阅读:2287)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习