构建一个给爬虫使用的代理IP池 (www.jianshu.com)

【简介】

做网络爬虫时,一般对代理IP的需求量比较大。因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

点击查看原文 >>

@Tony沈哲 2017-11-24 09:47 / 0个评论
赞过的人: @技术头条 @Tony沈哲
要不要再学学下面的文章?
使用零一万物 200K 模型和 Dify 快速搭建模型应用 (soulteary.com)
本篇文章,我们聊聊如何使用 LLM IDE (Dify) 快速搭建一个模型应用,以及使用超长上下文的 200K 模型,完成懒人式的电子书翻译。
by @技术头条 2024-03-21 22:55 查看详情
使用 llama.cpp 在本地部署 AI 大模型的一次尝试 (blog.yuanpei.me)
本文旨在尝试使用 llama.cpp 在本地部署 AI 大模型,随着人工智能的快速发展,我们逐渐认识到私有化部署的重要性和潜力。在此背景下,llama.cpp 作为一个纯 C/C++ 实现的 LLaMA 模型推理工具,提供了在本地环境下高性能的 AI 推理能力。在这篇文章中,我们可以了解到 llama.cpp 具有在 GPU 和 CPU 环境下运行的灵活性,满足私有化部署的需求。文章详细介绍了 llama.cpp 编译和部署的过程,为读者提供了一份在本地部署 AI 大模型的教程。私有化部署的 AI 大模型,相比于 ChatGPT 这类通用大模型,更注重数据隐私和安全性,对云服务的依赖更少,可以做到更好的本地化控制。虽然编译 llama.cpp 有一定的复杂性,AI 大模型的下载、转化、量化需要一定的耐心,可当本地的 AI 应用运行起来的那一刻,博主觉得这一切完全值得。
by @技术头条 2024-03-12 22:29 查看详情
解析Java动态代理机制的实现 (l1n.wang)
代理模式主要是Proxy对原始方法做了一层包装,用以增加一些新的统一处理逻辑,来增强目标对象的功能。静态代理是传统设计模式中一种传统的实现方案,动态代理能将代理对象的创建延迟到程序运行阶段。
by @技术头条 2024-01-17 23:16 查看详情
BGP 劫持 — 连 IP 都是假的 (www.addesp.com)
当你打不开某个网站的时候你会怎么办?

你可能会先 ping 一下域名看一下延迟。如果延迟正常的话你大概会检查一下自己的 DNS 解析结果是否正确。如果 DNS 解析也是正确的你大概会怀疑网站本身出了问题。但是你老家的亲戚能打开你却打不开,这是怎么回事呢?

这种情况下你可能遇到了「BGP 劫持」,它可以将你的通信劫持到指定主机上,并且 IP 地址不发生变化。
by @技术头条 2023-12-26 22:25 查看详情
Linux中使用tar压缩命令排除文件 (lisenhui.cn)
众所周知tar命令是在Linux系统中最为常用来解压缩文件的命令之一,之前大部分时候都直接用它来压缩备份或转移的文件内容,因此也未过多关注过它在压缩时的其它可选参数使用。但最近在转移文件遇到其占用空间比较大,考虑到里面有些内容并不是必须,于是想到如何来使用tar命令参数来实现,经过多次尝试,找到了个解决办法——使用exclude-from参数,可灵活控制不需要压缩文件,然后顺手做个记录分享。
by @技术头条 2023-12-26 22:19 查看详情
ChCore 构建系统实现思路 (stdrc.cc)
读研期间的一个工作是为实验室的 ChCore 操作系统重写了新的构建系统——ChBuild,主要包括各级 CMake 脚本、配置系统和构建入口脚本。目前构建系统已经跟随 第二版 ChCore Lab 开源,所以现在可以尝试分享一下思路。如果你不了解 ChCore Lab,也没有关系,这里主要是想粗浅地介绍一些 CMake 很有趣且有用的特性和技巧,可以只看关于这些的内容。

下面的讨论基于 ChCore Lab v2 的 lab5 分支,因为这里包含了比较完整的操作系统代码结构。在阅读之前,建议你首先理解 Modern CMake By Example 中的绝大部分内容。
by @技术头条 2023-12-11 23:07 查看详情
[体验向]使用Deepin深度系统制作音乐 (lado.me)
本文是分享使用Deepin来搭建Linux的音乐制作环境的体验。

Deepin自带ALSA、Pulseaudio和FFmpeg,基于Debian能直接使用几乎所有软件。唯一有点小麻烦的地方是在wine官方源安装高版本wine需要另外安装依赖。
by @技术头条 2023-11-30 23:36 查看详情
应用获取客户端真实IP (jokerbai.com)
背景信息因为产品需要,要在应用端获取到真实的客户端IP,由于应用前面经过了多次代理,所以默认情况下是获取不到真实IP的。基本概念在实现之前,先简单了解一下常用来获取IP的几个header。
by @技术头条 2023-11-30 23:32 查看详情
使用SigNoz搭建可观测系统 (jokerbai.com)
前言SigNoz是一个开源的应用程序性能监控工具,可以帮助你监控你的应用程序并排除故障,它可以进行链路追踪、基础设施监控以及日志管理,可以说是Datalog的开源版本。
by @技术头条 2023-11-30 23:19 查看详情
开源软件 FFmpeg 生成模型使用图片数据集 (soulteary.com)
本篇文章聊聊,成就了无数视频软件公司、无数在线视频网站、无数 CDN 云服务厂商的开源软件 [ffmpeg]。分享下如何使用它将各种视频或电影文件,转换成上万张图片数据集、壁纸集合,来让下一篇文章中的模型程序“有米下锅”,这个方法特别适合宫崎骏、新海诚这类“壁纸合集”类电影。
by @技术头条 2023-11-29 23:44 查看详情