标点符 -- IT技术博客大学习 -- 共学习共进步！

• 协同过滤推荐系统的那些不足点

类目（种类）推荐杂很多情境下行不通，因为有太多的产品属性，而每个属性（比如价钱，颜色，风格，面料，等等）在不同的时候对于消费者的重要程度都是不一样的。取而代之的是协同过滤推荐系统。但是协同过滤推荐系统也不是那么完美无缺，他或多或少的会有那么一些问题~ 1、数据稀疏问题协同过滤的精度主要取决于用户数据的多少。如果一个系统有很多用户的历史数据，他就能更好的对用户的喜欢做出预测。所以，目前推荐系统做的最好的都是那些有着很大量用户数据的公司，比如Google, Yahoo, Netflix, Amazon等等。一个好的推荐系统首先需要类目（种类）数据（从目录或者其它形式得到），然后系统必须捕获并且分析这些用户数据（用户行为），然后，再应用神奇的算法工作。分析越多的类目（种类）和用户数据，系统越有可能生产好的推荐。但是，这又是一个蛋和鸡的问题：要形成好的推荐，首先需要有大量的用户，这样才能得到大量

• 基于增强学习的旅行计划推荐系统

1 概述推荐系统是一种智能化电子商务应用，可以协助用户搜索信息，为用户提供个性化的产品推荐。旅游推荐系统的目的是支持旅行者在旅游前和旅游中面临的重要旅行规划决定。此类系统明确(通过问)或暗示(通过挖掘用户的在线活动日志)获取用户需求，并提供各种产品和服务，如前往目的地、兴趣点、事件或活动。近年来，研究者设计了很多旅游推荐系统，某些已经运行于主要的旅游门户网站。传统推荐系统支持很简单的非交互检索流程：在...

• 为什么国内还有那么多网站使用.NET架构？

为什么这么多网站使用Windows/.NET? 创业初期，创始人非技术背景出身，对Unix/Linux存在恐惧心理或对使用何种平台和框架没有想法。创业初期，创始人技术出身，选择了自己擅长的语言。创业初期，创始人对语言没有什么要求，唯一的要求就是省钱、快速上线。

• 聚焦爬虫：定向抓取系统的实现方法

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓...

• Javascript模板引擎分享

模板引擎的主要功能就是把变化的数据融入到不变的模板中，并生成最终结果。目前，前端的主要数据格式无非是XML和JSON。如何将这些数据更加方便的呈现呢？最近看了很多的PHP模板引擎，今天看到了一个非常棒的Javascript模板引擎，用以更方便的呈现前台数据。它的一个超级简单的、快速的，高速缓存的，非常容易使用的模板引擎。下面就来看下这个模板引擎是如何工作的。

• SQL Server 2008 数据挖掘算法浅析

什么是数据挖掘？数据挖掘是商务智能应用中较高层次的一项技术，而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供的是一种自动化或半自动化的数据分析手段，利用数据挖掘用户将可以更加方便地发现数据的模式（其实就是用户关心的业务模式），用户还可以利用这些模式对某些符合特征的数据作出预测。那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢？现在主流的数据挖掘技术...

• MySQL中文全文索引插件推荐：mysqlcft

MySQL在高并发连接、数据库记录数较多的情况下，SELECT … WHERE … LIKE ‘%…%’的全文搜索方式不仅效率差，而且以通配符%开头作查询时，使用不到索引，需要全表扫描，对数据库的压力也很大。MySQL针对这一问题提供了一种全文索引解决方案，这不仅仅提高了性能和效率（因为MySQL对这些字段做了索引来优化搜索），而且实现了更高质量的搜索。但是，至今为止，MySQL对中文全文索引无法正确支持。 Mysqlcf...

• 页面停留时间和网站停留时间详解

一、页面停留时间与网站停留时间是如何计算出来的？假设用户访问了网站的主页（Home）。分析工具将这个访问者标记为一个Visit，接着这个访问者又浏览了另外两个页面（Page2和Page3），然后他离开了你的网站。如下图所示：我们想要知道的是： Tp = 花费在一个页面上的时间 Ts = 花费在这网站上的总时间假如这个用户从10:00开始访问网站：对于Page2而言，访问时间是10:05-10:01，即4分钟。接着访问者来到了Page3页面，他发现改...

• PHP API 框架开发的学习

基于互联网的应用正变得越来越普及，在这个过程中，有更多的站点将自身的资源开放给开发者来调用。对外提供的API 调用使得站点之间的内容关联性更强，同时这些开放的平台也为用户、开发者和中小网站带来了更大的价值。在开发API前，你需要的是给API设定一个框架，这个框架一定是要简单的且是容易扩展的。下面就是用就来看看如何使用PHP来创建一个API。 API框架需要的特性面向对象和结构化的代码可修改的URL结构创建多个版本使...

• 数据会骗人：辛普森悖论

当人们尝试探究两种变量是否具有相关性的时候，比如新生录取率与性别，报酬与性别等，会分别对之进行分组研究。辛普森悖论是在这种研究中，在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方，会在总评中反而是失势的一方。该现象于20世纪初就有人讨论，但一直到1951年E.H.辛普森在他发表的论文中，该现象才算正式被描述解释。后来就以他的名字命名该悖论。一所美国高校的两个学院，分别是法学院和商学院，新学期...

• 机械键盘的一些知识

什么是机械键盘？电脑键盘五花八门，各式各样，那应该怎样分类比较合理呢？只有按照设计原理与结构分类才不会出现混淆，从设计原理来看，键盘可以简单分为薄膜键盘、静电电容键盘和机械键盘三类。薄膜键盘就是大家现在最常见的键盘，从十几元的低端产品到上千元的薄膜键盘都有，覆盖面最广。无论是超薄键盘还是非超薄键盘，键帽结构如何复杂，只要是有三层薄膜结构设计的就是薄膜键盘。市场上曾经出现过一些所谓的机械键盘，在薄...

• PHP Session学习笔记

在web开发中，session是个非常重要的概念。Session一般译作会话，Session是一种基于HTTP协议的用以增强web应用能力的机制或者说一种方案，它不是单指某种特定的动态页面技术，而这种能力就是保持状态，也可以称作保持会话。在许多动态网站的开发者看来，session就是一个变量，而且其表现像个黑洞，他只需要将东西在合适的时机放进这个洞里，等需要的时候再把东西取出来。这是开发者对session最直观的感受，但是黑洞里的景象或者说...

• GUID分区表的学习

先说说目前广泛使用的磁盘分区表方案。传统的分区方案(称为MBR分区方案)是将分区信息保存到磁盘的第一个扇区(MBR扇区)中的64个字节中，每个分区项占用16个字节，这16个字节中存有活动状态标志、文件系统标识、起止柱面号、磁头号、扇区号、隐含扇区数目(4个字节)、分区总扇区数目(4个字节)等内容。由于MBR扇区只有64个字节用于分区表，所以只能记录4个分区的信息。这就是硬盘主分区数目不能超过4个的原因。后来为了支持更多的分区...

• RAID磁盘阵列学习笔记

RAID是“Redundant Array of Independent Disk”的缩写，中文意思是独立冗余磁盘阵列。简单地解释，就是将N台硬盘通过RAID Controller（分Hardware，Software）结合成虚拟单台大容量的硬盘使用。RAID的采用为存储系统（或者服务器的内置存储）带来巨大利益，其中提高传输速率和提供容错功能是最大的优点。简单的说，RAID是一种把多块独立的硬盘（物理硬盘）按不同的方式组合起来形成一个硬盘组（逻辑硬盘），从而提供比单个硬盘更...

• 网站统计：第一方Cookie和第三方Cookie

什么是 Cookie？ Cookie 是您访问过的网站创建的文件，用于存储浏览信息，例如您的网站偏好设置或个人资料信息。共有两种类型的 Cookie：第一方 Cookie 是由地址栏中列出的网站域设置的 Cookie，而第三方 Cookie 来自在网页上嵌入广告或图片等项的其他域来源。 Cookie可以用来提升用户体验，比如网站可以使用Cookie来记录用户的登录状态，用户只要登录一次就可以不用登录了，购物网站通过Cookie来保存购物车中的商品等。同时很多的...

• Google：《关于浏览器和网络的20项须知》

20 项须知：前言如今许多人都离不开网络，我们只要动动手指就能获得全球信息，并且在瞬间接触到世界各地的人和活动。所有这些超强体验都归功于开放的互联网。世界上的任何人都能通过任何已联网的设备，通过浏览器上网。但是浏览器和网络的工作原理究竟是怎样的呢？万维网是如何发展到如今我们所了解和喜爱的样子的？我们需要了解哪些事情才能安全有效地浏览网络？“我了解到的关于浏览器和网络的 20 件事”是一个简短的指南，面...

• WEB超链分析算法研究

万维网WWW（World Wide Web）是一个巨大的，分布全球的信息服务中心，正在以飞快的速度扩展。1998年WWW上拥有约3.5亿个文档[14]，每天增加约1百万的文档[6]，不到9个月的时间文档总数就会翻一番[14]。WEB上的文档和传统的文档比较，有很多新的特点，它们是分布的，异构的，无结构或者半结构的，这就对传统信息检索技术提出了新的挑战。传统的WEB搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基于目录分...

• 开源网站分析软件Piwik的数据库表结构

Piwik是一套基于Php+MySQL技术构建，能够与Google Analytics相媲美的开源网站访问统计系统，前身是phpMyVisites。Piwik可以给你详细的统计信息，比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等，并且采用了大量的AJAX/Flash技术，使得在操作上更加便易。此外，它还采用了插件扩展及开放API架构，可以让开发人员根据自已的实际需求创建更多的功能。 Piwik的数据库结构图上图（点击可查看大图）Piwik的数据库结构按照简洁、...

• WEB数据挖掘相关术语整理

WEB数据挖掘建立在对大量的网络数据进行分析的基础上，采用相应的数据挖掘算法，在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析，最后做出归纳性的推理、预测客户的个性化行为以及用户习惯，从而帮助进行决策和管理，减少决策的风险。 WEB数据挖掘涉及多个领域，除数据挖掘外，还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。

• 数据分析中常用的数据模型

一、抽样分析模型建模方法首先确定统计的时间段，暂定为15天；从数据库中随机抽取若干名用户作为分析样本建立分析模型，模型图中假定抽样人数为100人，15天内最高使用量为200最少为15，在横坐标轴依次画出每人的使用量立柱图；然后向右侧画出最高点和最低点的水平引线；然后垂直划线连接水平线，得到上下交点之间的线段，分别在线段的中点和三分点处水平画出“中分线”“上分线”“下分线”。分析方法根据立柱图的分布比率确定...