技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 算法
    Levenshtein distance最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名。主要用途: Spell checking(拼写检查) Speech recognition(语句识别) DNA analysis(DNA分析) Plagiarism detection(抄袭检测) Spam e...
    这个ecshop里面的一个函数,感觉很好,再次跟大家分享。
    编程任务:1、 我们碰到了大麻烦,一个新来的传教士惹恼了上帝,上帝很愤怒,要求我们把圣经(bbe.txt)背熟,直至他说哪个单词,我们就要飞快的回答出这个单词在 第几行第几个单词位...
    在我鸦片师兄的博客看到他对腾讯面试题的解答,我心血来潮,在他的基础上面提出了自己的解法,主要是受他的启发,利用令牌算法优化了一下. 设计任务:1、最近总有人骚扰我们的投票模块...
    keywords:中文分词、PHP中文分词、trie数据结构、Doubule Array Trie Datastruct 原理: Trie数据结构的名词介绍我就不介绍了,大家google,百度可以搜索一大堆的文章来. Tire索引树法结构:首字散列表、Tri...
    题目描述: 1亿个数据取前1万大的整数常规思路:运用数据结构里面描述的常规排序算法,快速排序法是常规排序中速度最快的我的思路: ====我的机器太差,就不跑1亿数据了,10000吧 1、把1...
    A:估计很多人只想要简单快速地实现正文抽取,我特地将PHP版本的调用示例给了出来,并打包提供下载:demo.tar; B:希望自行实现的朋友可以顺这两个思路来实现: i):链接密度算法:简单点说,就是统计每一个HTML子节点的链接密度,然后找出链接密度最小的那个点;对于中文新闻网页,这个密度值通常是0.03到0.05这个范围内,个别站点可能超出这个范围;当然你可以综合一下文本长度等等因素来考虑;网上有位达人写了一份python版的程序,可以考虑借鉴...
    适合电子商务系统或需要生成绝对唯一ID的系统。
    今天检查 svn 仓库,发现又有同学没按规定提交包含汉字的代码。我们规律,所有源文件中包含的汉字必须使用 UTF-8 编码方式,而不能使用 GBK 。总这么人工检查也不是个事。所以我想写一个 svn 的钩子,在提交前检查。在仓库的 hooks/pre-commit.teml 加一行检查脚本应该就可以了。我想用正则表达式匹配一下,可是想了想又觉得 UTF-8 和 GBK 的编码集有点交集,不太好做。btw, google 了一下,的确有人写过特定编码的正则表达式。
    曾经说过360利用云计算打压竞争对手的事情,今日一改往事之郁闷,我专门来篇文章夸奖下360安全卫士。咳咳!今天不完全是写360安全卫士的,我喜欢其中的一个叫做软件管家的功能,坦白说,我有点喜欢新软件,喜欢没事升级升级,尤其是chrome,一有新版本出来,我立马升级,好不含糊!国内这种软件管家很多的,不过我个人觉得360软件管家速度比较快。这点上,360的软件管家立功了,因为公司强制每台机器必须安装360,所以在公司,软件...
    唉!现在终于发现上学时不好好念书有多少的坏处了,概率几率对于我来说一直是一个很难弄清楚的问题。今天,我又继续让这个问题纠结上了。好吧!来说说我的那点事儿,首先注明一下:这是一篇求助性文字,我的几率算法也许根本就是不对的。如果恰巧有数学系专家学者路过,那希望您能留言说两句。问题是这样子的:在一个物品合成系统中,需要使用几件不同的物品来合成宝石,有不同的几率生成一颗(50%)、两颗(16%)和三颗(2%)宝石...
    -_-居然忘掉鸟while、for这么好的哥们。。。昨日晚上于家中折腾CrumbNavigation,即所谓面包屑导航。。一直在为递归纠结。。哎。。香烟过后,恍然大悟啊。。T.T…这个教训不能忘。
    现在网络环境错综复杂,socket心跳包是获得健康强壮的连接的有效解决方案,今天,我们就在web socket中实现心跳包方案,是的,尽管我们只是做一个简单的聊天室,但我们让他稳定可靠一些一点也没有错。我的心跳包方案很是简单,原理就是间隔发送心跳包数据给服务器,服务器在一定时间内发回心跳包响应,对比超时限定,如果超过设定的超时时间,则认为当前与服务器的websocket连接已经断开,关闭当前web socket连接,善后处理,例如...
    所谓内存越界(Heap Corruption),就是指当内存输入超出了预分配的空间大小,就会覆盖该空间之后的一段存储区域,导致系统异常。越界访问是非常常见的一种黑客手段。相关文章:善用消费者的“无知” 营销做到“无敌”   在工作中接触不少中小企业的老板,因而常听到他们用“这个行业市场很混乱,消费者很不理性”的理由,来说明企业的销售做不好的缘故。每逢“3.15”,总有不少企业在媒体上叫卖诚信,认为博得消费者信任是企业宣...
    这两天,我的同事丁宇(@felixding,极具艺术气质的设计师,推荐)遇到了一个正则表达式的问题,我琢磨了半天写了一个表达式,暂时能用;今天庄表伟(@zhuangbiaowei)跟我说,正则表达式的问题大家一般都会查手册,但怎么思考和解决问题,往往束手无策;正好,我在写作的《正则表达式傻瓜书》,也希望多讲讲这方面的内容。目前的写作还没有进展到介绍解题经验的阶段,索性,先在blog上写这方面的内容吧,希望对大家有所帮助,也希...
    起因 前一段时间和其他系统集成, 另外一个系统对某个参数有一个限制,需要将字符串中的特殊字符过滤掉, 由于需要过滤的字符是对方定义的, 所以对方直接把他们系统中的过滤的代码给我了
    今天和倩女幽魂的同事讨论一个问题:他们的游戏 client 中,有大量策划填写的表格直接导入 lua state 中的大量数据。大约有 100M 以上。这样,如果玩家在一台机器上启动多个 client ,就会占用大量的内存。而这些数据,一旦加载进 lua ,就不会再修改,且每个 client 中数据都是一致的,这是一种浪费。问题是:如何利用进程间的数据共享,在多开 client 时节省这些空间。(同时也可以加快开第二个 client 的启动速度)
    数据平台的源数据,很大部分来源于日志。一说到日志扫描和解析,不可避免就涉及到正则表达式匹配,没有了正则表达式,日志的匹配就很难做到自动化和高效。在日志匹配中,有种常见的匹配情形,叫“不包含”。就是说,我们希望这条日志,在匹配某个通用特征的情况下,又不包含某个特征,例如说: A pig is running. 我们希望匹配到所有带pig的日志,但是我们不希望匹配到pig带running的日志。而我们不希望改程序,扫描或者解析2次,...
    范围:单点登录传递,临时密码,原创在这里最近, 从discuz里面发现了一个很牛的加密解密函数。此函数的厉害之处在于可以在指定时间内加密还原字符串,超时无法还原这样我们就可以拿此...
    为了学习使用gdb调试程序,尝试的写了一个学生时代的程序来调试,居然修改了N处地方才改对,忘却了C了,应该回归了。 #include #include void main() { int i,j...
[ 共606篇文章 ][ 第28页/共31页 ][ |< ][ 22 ][ 23 ][ 24 ][ 25 ][ 26 ][ 27 ][ 28 ][ 29 ][ 30 ][ 31 ]
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1