技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 我爱正则表达式
    想必不少人体会过在Linux下误删文件的欲哭无泪的感觉。我整理出一份比较安全的rm脚本,贴在这里。 特性 接管原生的/bin/rm命令,将待删除的文件mv至回收站,便于统一管理,或者更重要的,...
    流程:从 history 命令中得到最近1000条命令。 删除每行的行号。记录每一行中的命令。行首的第一个英文单词,以及管道后面的第一个英文单词,视为命令名称。将得到的命令列表排序。统计每个命令的出现次数,先以次数降序排列,再以命令名称升序排列。
    一个重要的特点是,wrapper一定比inner多一个元素,它一一将inner项隔开,并处于最外层。wrapper 和 inner 的关系,就像是一个手掌的5根指头与4个指缝的关系。将中间的元素取出,记下位置,等处理完之后,再将所有的元素粘合在一起。就是这样简单。
    只要是知道“正则”这个词的,上网搜集个把资料,应该就不是问题吧。我获得正则消息的网絡渠道有这样几个,以质量从高到低排序:dilicious标签(颇有些不错的文章) > 一些与正则相关的博客(可以参考我整理的这个页面正则链接 ,不定期更新中) > google alerts (关键词[regex, regular expressions, 正则,正则表达式]都建议添加,有时也能发现好文章)。
    一个简单的程序,统计文本文档中的单词和汉字数,逆序排列(出现频率高的排在最前面
    英语等以空白字符作为分隔符的语言,分词不是问题。中文分词,需要处理的细节太多。单就“真歧义”这一问题(简言之,如果没有上下文,连活生生的人也无法确定如何断句的歧义句)的处理方法而言,前辈们就已写出洋洋洒洒许多文字。不过这属于进阶题目。我想先实现一个最简单的分词程序。
    

据说德国有这样一句谚语:没有泡沫的啤酒不是好啤酒。推而广知,可以得到:没人灌水的论坛不是好论坛,没有垃圾邮件的邮件系统不是好系统(至少是不知名的系统/电邮地址),没有病毒骚扰的OS不是好的OS,等等。但是,只有泡沫的啤酒也不是什么好啤酒吧?关键是将不需要的内容控制在可以允许的范围内。单就开论坛、维护垃圾邮件的角度出发,审核技术还是很有用,很有必要的。否则,其地盘很快就会淹没在垃圾广告的汪洋大海之中。自己的论坛,自己发广告是为了维持网站开销,但是不请自来的广告是无法容忍的。

[ 共7篇文章 ][ 第1页/共1页 ][ 1 ]
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1