您现在的位置:首页 --> 查看专题: 数据挖掘
在数据的世界里,我们看到了很多很牛,很强大也很有趣的案例。但是,数据就像一个王座一样,像征着一种权力和征服,但登上去的路途一样令人胆颤。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式,可以发现的模式有很多种,按功能可以分为两大类:预测性(Predictive)模式和描述性(Descriptive)模式。在应用中往往根据模式的实际作用细分为以下几种:分类,估值,预测,相关性分析,序列,时间序列,描述和可视化等。
挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?有了抽词算法后,我们还能以词为单位做更多有趣的数据挖掘工作。这里,我所选用的语料是人人网 2011 年 12 月前半个月部分用户的状态。非常感谢人人网提供这份极具价值的网络语料。
数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取,算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而weka,便是数据挖掘工具中的佼佼者。 Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化的,基于JAVA环境下开源的机器学习以及数据挖掘软件。它和它的源代码可在其官方网站下载。
当用户在一个网站浏览或者搜索商品时,在大多数时间他所面对的都是商品标题+商品图片的商品信息形式。只有当这种简要的信息抓住了用户的眼球时或者达到用户的心理预期时才能引导用户进入更详细的商品详情页。这就对其中唯一的文本信息载体:商品标题包含的信息内容质量提出了要求。
目前,中国的旅游企业面临着一个竞争非常激烈的经营环境。在现有的需求中获得足够的市场份额是每个企业非常关心的问题。酒店的亏损经营、旅行社的微利经营实际上预示着通过低价竞争获取市场份额的营销策略在中国已经走到了尽头。在这种状况下,迫切要求我们采取 一种切实有效的非价格竞争策略。价格战的根本原因是不能提供差异化的产品和差异化的营销。新经济建立在信息技术的基础之上,追求差异化、个性化、网络化和速度化。在这种时代背景下,将数据挖掘技术应用于旅游营销无疑是一种有益的尝试。
什么是数据挖掘? 数据挖掘是商务智能应用中较高层次的一项技术,而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供的是一种自动化或半自动化的数据分析手段,利用数据挖掘用户将可以更加方便地发现数据的模式(其实就是用户关心的业务模式),用户还可以利用这些模式对某些符合特征的数据作出预测。 那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢?现在主流的数据挖掘技术...
一、页面停留时间与网站停留时间是如何计算出来的? 假设用户访问了网站的主页(Home)。分析工具将这个访问者标记为一个Visit,接着这个访问者又浏览了另外两个页面(Page2和Page3),然后他离开了你的网站。如下图所示: 我们想要知道的是: Tp = 花费在一个页面上的时间 Ts = 花费在这网站上的总时间 假如这个用户从10:00开始访问网站: 对于Page2而言,访问时间是10:05-10:01,即4分钟。 接着访问者来到了Page3页面,他发现改...
最新一份的CNNIC报告(第28次中国互联网络发展状况统计报告),非常薄,只有50多页,也没有什么太过值得一提的数据,对目前正当红的移动互联网,调查得也不够。不过,结合历年来的统计,倒是有些情况需要注意。 中国很多网络服务,目标受众群体都是年轻人群体,比如说网游。即便是一些貌似稍长一点年龄段会去使用的服务,比如富媒体,比如即时聊天,比如社交,运营者也是瞄着年轻人群。所谓的年轻人群,我看大抵就是10-19岁和20-29...
WEB数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。 WEB数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。
一、抽样分析模型 建模方法 首先确定统计的时间段,暂定为15天;从数据库中随机抽取若干名用户作为分析样本建立分析模型,模型图中假定抽样人数为100人,15天内最高使用量为200最少为15,在横坐标轴依次画出每人的使用量立柱图;然后向右侧画出最高点和最低点的水平引线;然后垂直划线连接水平线,得到上下交点之间的线段,分别在线段的中点和三分点处水平画出“中分线”“上分线”“下分线”。 分析方法 根据立柱图的分布比率确定...
周末看到资深电商人士微博,提到网络营销过程中数据挖掘与分析的妙处。某员工通过技术手段对广告与访客监测,通过对收集数据的分析,判断新产品未来的销量,从而影响公司的营销策略与商品运营。 这些年来,我一直在网络营销领域与工具及数据打交道,这样的案例比比皆是。广告主,通过对历史营销数据的分析,定位自己的目标受众;媒体代理公司,通过对媒体广告效果的数据分析,有效优化媒介预算配置,实现ROI提升;搜索引擎公司,通...
常用的定量分析是问卷调查,这可以收集到用户对产品的主观反馈,它的结果受问卷题目的影响,不能完全客观地反映用户如何使用产品,他们在实际环境中遇到了哪些问题。而针对网站的定量分析,网络服务器的日志文件能真实反映用户的当前体验,解释行为的深层特点,能够更有效地改进产品。 网络日志可以帮我们回答很多问题,比如用户在什么时间段浏览网站;对网站的什么板块比较感兴趣;是怎样了解到网站;多少用户会转成重复...
在网上看到一篇文章介绍五个免费开源的数据挖掘软件,转过来。OrangeOrange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。RapidMinerRapidMin...
其实,对于统计数据没有必要非得这样切割清楚,更不应该是非此即彼的选择。统计数据经过认真的分析,可以为我们提供工作决策的有效帮助,这一点是毋庸置疑的。但如果凡事都依照统计数据来做事情,淹没在数据的海洋之中去追求形式,那么工作就会陷入极度的僵化之中而不可自拔。
在学校里面学到的都是基础知识,一方面我们是在掌握知识本身,更重要的另一方面,则是在培养学习能力,包括独立思考、学以致用等。数院的学生从事这个方向的工作,会有一定的优势,但最终还是靠自己。大家都知道,武大包括我们数院一向是很松散的,本科研究生很多都是放羊过去的。你想怎么过,决定权在自己手上。最后,用一句话作结,与大家共勉:纸上得来终觉浅,绝知此事要躬行!
生活形态(Life-Style)的概念源自社会学与心理学,六十年代即有学者正式引用到市场营销领域,并运用其心理影射与多维度等特质,着力解释人口统计变量所无法解释的行为,描绘出消费者的态度与价值观等人性层面,是细分市场、深挖客户价值的利器。因此,在网络购物迅猛发展的当下,购物网站如何把握自身产品和服务的消费者视角,并深入研究现有消费者和潜在消费者的生活形态和消费观念,同时,借用生活形态深入分析网购用户的价值诉...
周末beta沙龙和大家分享的音乐智能推荐PPT,有些内容和上次的PPT差不多,这次主要和大家分享一个完整的数据挖掘流程,同样的,还是工程方面比较多,学术方面这里有很多大牛。
[ 共18篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
- [69] Twitter/微博客的学习摘要
- [67] IOS安全–浅谈关于IOS加固的几种方法
- [65] 如何拿下简短的域名
- [65] android 开发入门
- [63] find命令的一点注意事项
- [62] Go Reflect 性能
- [61] 流程管理与用户研究
- [60] Oracle MTS模式下 进程地址与会话信
- [59] 图书馆的世界纪录
- [57] 读书笔记-壹百度:百度十年千倍的29条法则
赞助商广告