您现在的位置:首页
--> 算法
Levenshtein distance最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名。主要用途: Spell checking(拼写检查) Speech recognition(语句识别) DNA analysis(DNA分析) Plagiarism detection(抄袭检测) Spam e...
• 递归字符转义
这个ecshop里面的一个函数,感觉很好,再次跟大家分享。
编程任务:1、 我们碰到了大麻烦,一个新来的传教士惹恼了上帝,上帝很愤怒,要求我们把圣经(bbe.txt)背熟,直至他说哪个单词,我们就要飞快的回答出这个单词在 第几行第几个单词位...
在我鸦片师兄的博客看到他对腾讯面试题的解答,我心血来潮,在他的基础上面提出了自己的解法,主要是受他的启发,利用令牌算法优化了一下. 设计任务:1、最近总有人骚扰我们的投票模块...
keywords:中文分词、PHP中文分词、trie数据结构、Doubule Array Trie Datastruct 原理: Trie数据结构的名词介绍我就不介绍了,大家google,百度可以搜索一大堆的文章来. Tire索引树法结构:首字散列表、Tri...
题目描述: 1亿个数据取前1万大的整数常规思路:运用数据结构里面描述的常规排序算法,快速排序法是常规排序中速度最快的我的思路: ====我的机器太差,就不跑1亿数据了,10000吧 1、把1...
A:估计很多人只想要简单快速地实现正文抽取,我特地将PHP版本的调用示例给了出来,并打包提供下载:demo.tar; B:希望自行实现的朋友可以顺这两个思路来实现: i):链接密度算法:简单点说,就是统计每一个HTML子节点的链接密度,然后找出链接密度最小的那个点;对于中文新闻网页,这个密度值通常是0.03到0.05这个范围内,个别站点可能超出这个范围;当然你可以综合一下文本长度等等因素来考虑;网上有位达人写了一份python版的程序,可以考虑借鉴...
适合电子商务系统或需要生成绝对唯一ID的系统。
今天检查 svn 仓库,发现又有同学没按规定提交包含汉字的代码。我们规律,所有源文件中包含的汉字必须使用 UTF-8 编码方式,而不能使用 GBK 。总这么人工检查也不是个事。所以我想写一个 svn 的钩子,在提交前检查。在仓库的 hooks/pre-commit.teml 加一行检查脚本应该就可以了。我想用正则表达式匹配一下,可是想了想又觉得 UTF-8 和 GBK 的编码集有点交集,不太好做。btw, google 了一下,的确有人写过特定编码的正则表达式。
曾经说过360利用云计算打压竞争对手的事情,今日一改往事之郁闷,我专门来篇文章夸奖下360安全卫士。咳咳!今天不完全是写360安全卫士的,我喜欢其中的一个叫做软件管家的功能,坦白说,我有点喜欢新软件,喜欢没事升级升级,尤其是chrome,一有新版本出来,我立马升级,好不含糊!国内这种软件管家很多的,不过我个人觉得360软件管家速度比较快。这点上,360的软件管家立功了,因为公司强制每台机器必须安装360,所以在公司,软件...
唉!现在终于发现上学时不好好念书有多少的坏处了,概率几率对于我来说一直是一个很难弄清楚的问题。今天,我又继续让这个问题纠结上了。好吧!来说说我的那点事儿,首先注明一下:这是一篇求助性文字,我的几率算法也许根本就是不对的。如果恰巧有数学系专家学者路过,那希望您能留言说两句。问题是这样子的:在一个物品合成系统中,需要使用几件不同的物品来合成宝石,有不同的几率生成一颗(50%)、两颗(16%)和三颗(2%)宝石...
-_-居然忘掉鸟while、for这么好的哥们。。。昨日晚上于家中折腾CrumbNavigation,即所谓面包屑导航。。一直在为递归纠结。。哎。。香烟过后,恍然大悟啊。。T.T…这个教训不能忘。
现在网络环境错综复杂,socket心跳包是获得健康强壮的连接的有效解决方案,今天,我们就在web socket中实现心跳包方案,是的,尽管我们只是做一个简单的聊天室,但我们让他稳定可靠一些一点也没有错。我的心跳包方案很是简单,原理就是间隔发送心跳包数据给服务器,服务器在一定时间内发回心跳包响应,对比超时限定,如果超过设定的超时时间,则认为当前与服务器的websocket连接已经断开,关闭当前web socket连接,善后处理,例如...
所谓内存越界(Heap Corruption),就是指当内存输入超出了预分配的空间大小,就会覆盖该空间之后的一段存储区域,导致系统异常。越界访问是非常常见的一种黑客手段。相关文章:善用消费者的“无知” 营销做到“无敌” 在工作中接触不少中小企业的老板,因而常听到他们用“这个行业市场很混乱,消费者很不理性”的理由,来说明企业的销售做不好的缘故。每逢“3.15”,总有不少企业在媒体上叫卖诚信,认为博得消费者信任是企业宣...
这两天,我的同事丁宇(@felixding,极具艺术气质的设计师,推荐)遇到了一个正则表达式的问题,我琢磨了半天写了一个表达式,暂时能用;今天庄表伟(@zhuangbiaowei)跟我说,正则表达式的问题大家一般都会查手册,但怎么思考和解决问题,往往束手无策;正好,我在写作的《正则表达式傻瓜书》,也希望多讲讲这方面的内容。目前的写作还没有进展到介绍解题经验的阶段,索性,先在blog上写这方面的内容吧,希望对大家有所帮助,也希...
起因 前一段时间和其他系统集成, 另外一个系统对某个参数有一个限制,需要将字符串中的特殊字符过滤掉, 由于需要过滤的字符是对方定义的, 所以对方直接把他们系统中的过滤的代码给我了
今天和倩女幽魂的同事讨论一个问题:他们的游戏 client 中,有大量策划填写的表格直接导入 lua state 中的大量数据。大约有 100M 以上。这样,如果玩家在一台机器上启动多个 client ,就会占用大量的内存。而这些数据,一旦加载进 lua ,就不会再修改,且每个 client 中数据都是一致的,这是一种浪费。问题是:如何利用进程间的数据共享,在多开 client 时节省这些空间。(同时也可以加快开第二个 client 的启动速度)
数据平台的源数据,很大部分来源于日志。一说到日志扫描和解析,不可避免就涉及到正则表达式匹配,没有了正则表达式,日志的匹配就很难做到自动化和高效。在日志匹配中,有种常见的匹配情形,叫“不包含”。就是说,我们希望这条日志,在匹配某个通用特征的情况下,又不包含某个特征,例如说: A pig is running. 我们希望匹配到所有带pig的日志,但是我们不希望匹配到pig带running的日志。而我们不希望改程序,扫描或者解析2次,...
范围:单点登录传递,临时密码,原创在这里最近, 从discuz里面发现了一个很牛的加密解密函数。此函数的厉害之处在于可以在指定时间内加密还原字符串,超时无法还原这样我们就可以拿此...
为了学习使用gdb调试程序,尝试的写了一个学生时代的程序来调试,居然修改了N处地方才改对,忘却了C了,应该回归了。 #include #include void main() { int i,j...
近3天十大热文
- [56] Oracle MTS模式下 进程地址与会话信
- [56] IOS安全–浅谈关于IOS加固的几种方法
- [55] 如何拿下简短的域名
- [54] 图书馆的世界纪录
- [53] Go Reflect 性能
- [53] android 开发入门
- [50] 【社会化设计】自我(self)部分――欢迎区
- [50] 读书笔记-壹百度:百度十年千倍的29条法则
- [39] 程序员技术练级攻略
- [33] 视觉调整-设计师 vs. 逻辑
赞助商广告