yq yq.aliyun.com / 2019-06-13 15:37 / by @可耐芊小仙女

PyODPS DataFrame 处理笛卡尔积的几种方式

笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例，假设大表 Coordinates1 存储目标点经纬度坐标，共有 M 行数据，小表 Coordinates2 存储出发点经纬度坐标，共有 N 行数据，现在需要计算所有离目标点最近的出发点坐标。对于一个目标点来说，我们需要计算所有的出发点到目标点的距离，然后找到最小距离，所以整个中间过程需要产生 M * N 条数据，也就是一个笛卡尔积问题。

du dusays.com / 2024-11-02 16:54

多方式防止网站被镜像

本文提供了多种方法来防止网站被镜像，包括使用 JavaScript 检查域名有效性、设置 `X-Frame-Options` 和 `Content-Security-Policy` 防止嵌入、限制访问频率、过滤爬虫请求，以及强制 HTTPS 加密。通过分析访问日志识别异常流量，这些措施可有效降低网站被恶意镜像的风险，提升资源的安全性和访问控制。

查看详情

无图

co colobu.com / 2024-09-08 23:34

四种字符串和bytes互相转换方式的性能比较

在 Go 中，字符串和字节数组的互转性能是很多开发者关注的问题。本文详细对比了四种转换方式，包括新型 unsafe 方法和 Kubernetes 实现，并通过 Benchmark 测试揭示了它们的性能差异。想要优化你的 Go 项目性能？不妨看看这篇详细的实测分析！

查看详情

无图

in innei.in / 2024-08-06 08:19

一种适用于 Zustand 和 React Query 的前端数据管理方式

本文介绍了一种结合Zustand和React Query进行前端数据管理的方法。作者指出，直接使用React Query进行复杂数据的乐观更新可能会导致性能和维护问题。通过使用Zustand创建数据映射表和自定义hook，可以简化状态管理和数据同步，提升效率和可维护性。文章还提供了在开发RSS信息流浏览器“Follow”中的应用示例。

查看详情

无图

bl blog.wangmao.me / 2024-08-06 07:37

OpenCV 模糊处理图片中包含的二维码

之前在某电商 App 上浏览商品评论区时，发现一些晒单照片中包含的二维码被马赛克处理了，从马赛克的处理痕迹来看不像是用户手动处理的，更像是机器识别+处理的，对此我更好奇其实现原理了。

借助 ChatGPT，了解到主流的处理方式是通过 OpenCV 识别二维码的位置，并创建一个模糊图层对其覆盖。

查看详情

无图

co colobu.com / 2024-03-21 22:55

Go 中的高速数据包处理:从 net.Dial 到 AF_XDP

最近编写了一个Go程序，向数百万个IP地址发送ICMP ping消息。显然，希望这个过程能尽可能快速高效地完成。因此,这促使我研究各种与网络栈交互和快速发送数据包的各种方法。这是一个有趣的旅程,所以在本文中,我将分享一些学习成果,并记录下来供将来参考:)你将看到，仅使用8个内核就可以达到1880万数据包/秒。这里还有一个GitHub仓库,其中包含了示例代码,可以方便地跟随学习。

查看详情

无图

bl blog.codingnow.com / 2024-03-13 13:20

用过 skynet 的应该都碰到过：当我们在服务中不小心调用了一个长时间运行而不返回的 C 函数，会独占一个工作线程。同时，这个被阻塞的服务也无法处理新的消息。一旦这种情况发生，看似是无解的。我们通常认为，是设计问题导致了这种情况发生。skynet 的框架在监测到这种情况发生时，会输出 maybe in an endless loop 。

如果是 Lua 函数产生的死循环，可以通过发送 signal 打断正在运行运行的 Lua 虚拟机，但如果是陷入 C 函数中，只能事后追查 bug 了。

那么，如果我原本就预期一段 C 代码会运行很长时间，有没有可能从底层支持以非阻塞方式运行这段代码呢？即，在这段代码运行期间，该服务还可以接收并处理新的消息？

查看详情

无图

co colobu.com / 2024-01-17 23:05

高效I/O并发处理：双缓冲和Exchanger

双缓冲(double buffering)是高效处理I/O操作的一种并发技术，它使用两个buffer,一个goroutine使用其中一个buffer进行写，而另一个goroutine使用另一个buffer进行读，然后进行交换。这样两个goroutine可能并发的执行，减少它们之间的等待和阻塞。

本文还提供了一个类似Java的java.util.concurrent.Exchanger的Go并发原语，它可以用来在两个goroutine之间交换数据，快速实现双缓冲的模式。这个并发原语可以在github.com/smallnest/exp/sync/Exchanger找到。

查看详情

无图

cr crossoverjie.top / 2023-09-10 23:23

使用 SQL 的方式查询消息队列数据以及踩坑指南

为了让业务团队可以更好的跟踪自己消息的生产和消费状态，需要一个类似于表格视图的消息列表，用户可以直观的看到发送的消息；同时点击详情后也能查到消息的整个轨迹。

查看详情

无图

io www.iots.vip / 2023-08-18 23:09

优雅的处理Git多帐号与代理问题

　　在工作中，常常会容易遇到一台电脑用多个 Git 账号的场景，比如账号 company 账号是工作用的，而账号 personal 是自己个人用的。由于 Git 本身并没有多账号的机制，导致我们在默认设置下无法很好的区分哪个仓库使用哪个账号。同时，在某些众所周知的场景下，我们无法直接访问到 Github 仓库，需要走一层 proxy 来加速我们的代码拉取与推送速度，本文将使用 SSH config 相对优雅的解决这些问题。

查看详情

无图

xi xiezhenye.com / 2023-07-04 23:07

实现 go 的 goroutine 本地存储又一种方式

go 本身没有对外提供 goroutine 本地存储，而现实中，又经常需要在上下文中传递一些数据。使用 context 也是一种方式，但是要求在所有需要的地方都要传递，还是非常麻烦，而且有侵入性。
偶然发现 go 已经提供了一个用于 profile 的 pprof label，可以在 goroutine 中携带一些数据。不过这个东西既然是用于 pprof 的，随意往里塞太多东西显然也不适合，还会对 pprof 产生干扰。所以，想办法只用其中一个 label，用一些黑科技把一个 map 放了进去，将影响降到最小。同时，pprof 包中已经有一些基于 context 访问处理 label 的逻辑，所以还要做一些兼容处理，避免被其覆盖。

查看详情

无图

PyODPS DataFrame 处理笛卡尔积的几种方式

发表评论

相关分享