网络爬虫之网页排重:语义指纹 (click.aliyun.com)

【简介】

网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档排重,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。本文选自《网络爬虫全解析——技术、原理与实践》。

点击查看原文 >>

@顽固份子_akaBlueMind 2017-05-08 13:33 / 0个评论
赞过的人: @顽固份子_akaBlueMind
要不要再学学下面的文章?
JA 指纹识别全系讲解 (paper.seebug.org)
近期在学习 Burp Suite 的反制时发现 Wfox 前辈写的反制爬虫之 Burp Suite RCE一文,文末处介绍了使用 JA3 指纹识别 Burp Suite 流量的方法,简单研究后发现实战中易用性较强,故借此机会完整介绍一下 JA 指纹的全系列,并拓展到实践中。
by @技术头条 2024-03-21 22:56 查看详情
今天才知道,Web网页也能阻止息屏了 (www.zhangxinxu.com)
Chrome和Safari浏览器都支持了名为Screen Wake Lock的API,可以设置Web网页打开的状态下,显示器屏幕不会自动休眠。
by @技术头条 2024-03-21 22:53 查看详情
网络空间指纹:新型网络犯罪研判的关键路径 (paper.seebug.org)
网络空间指纹是对涉案网络资产所表现的数字痕迹和服务特征的收集和分析,类似于传统刑事科学的指纹概念,每个网络犯罪活动站点都会在网络空间留下独特的特征。本文将重点介绍网络空间指纹的形成和采集方法,以及其在网络犯罪研判中的应用实践。同时,我们将通过实际案例分析,验证网络空间指纹在研判网络犯罪行为中的可行性和有效性。
by @技术头条 2024-03-12 22:52 查看详情
绕过 Cloudflare 指纹护盾 (sxyz.blog)
最近才知道,除了 TLS 指纹,竟然还有 HTTP/2 指纹,这两种 Cloudflare 都有采用,这篇博客介绍如何绕过它们。
by @技术头条 2023-12-11 23:26 查看详情
xorbot–一个检出率趋近于零的新型僵尸网络家族 (blog.nsfocus.net)
xorbot是一个正在快速成长中的新型僵尸网络家族,当前版本涵盖了x86,MIPS,Renesas SH,ARM在内的多种CPU架构。
by @技术头条 2023-12-11 23:03 查看详情
iOS|获取 Distribution Managed 证书的 SHA-1 指纹和公钥 (mazhuang.org)
最近在处理 APP 备案的事情,其中 iOS 平台的资料里要求填写签名证书的 SHA-1 指纹和公钥。

按照阿里云的操作指南进行操作时,在公钥与签名 SHA1 值获取这一步遇到了问题:我们证书的类型与指南中显示的不同,是 Distribution Managed 类型的,苹果开发者网站上不提供下载,自然也就无法直接拿到公钥和 SHA-1 指纹了。
by @技术头条 2023-12-11 22:58 查看详情
定位面向未来的汽车网络安全 (blog.nsfocus.net)
软件定义汽车开启了无限可能,即使汽车型号已经过时,终端客户仍然可以通过软件更新享受到市场上最新的安全、舒适和便利功能。在整个部署和操作过程中保护该软件至关重要。

结构合理的网络安全管理必须与软件定义汽车的开发齐头并进。开发人员必须兼顾各个层次的安全性,不对特定应用程序或任何支持软件的安全性做出任何假设。

简而言之,开发人员必须管理风险,从其他行业吸取教训,推进全面的网络安全管理体系,以提供应对任何未来风险的框架。安波福公司(Aptiv)通过行业组织与客户、供应商和同行合作,积极帮助提高标准。
by @技术头条 2023-11-29 23:42 查看详情
网络侦察建模及防御概述 (blog.nsfocus.net)
通过梳理已有网络侦察模型,利用博弈论对网络侦察进行形式化建模,提出一个基于置信度更新的网络侦察模型,并对网络侦察防御相关技术进行概述。
by @技术头条 2023-11-29 23:41 查看详情
如何利用「深度上下文兴趣网络」提升点击率? (tech.meituan.com)
美团到店广告平台在用户行为序列建模算法的迭代落地中,基于对业务实际场景中用户决策心智的观察,创新性地提出了深度上下文兴趣网络,精确建模了用户的兴趣,提升了CTR等线上业务指标。本文介绍了相应算法背后的动机、建模方法以及工程优化,希望能为从事相关工作的同学带来一些启发或帮助。
by @技术头条 2023-11-29 23:40 查看详情
利用HAR文件查看和诊断网络请求 (www.iszy.cc)
HAR(HTTP 归档)是多种 HTTP 会话工具用来导出所记录数据的 一种文件格式。这种格式基本上是 JSON 对象,并具有一组特定的字段。请注意,并非所有 HAR 格式的字段都是必填字段, 很多时候,部分信息不会保存到文件中。
by @技术头条 2023-11-29 23:36 查看详情