BR 技术头条 技术链接、资讯与社区分享流
yq yq.aliyun.com / 2019-06-13 15:37 / by @可耐芊小仙女

PyODPS DataFrame 处理笛卡尔积的几种方式

笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例,假设大表 Coordinates1 存储目标点经纬度坐标,共有 M 行数据,小表 Coordinates2 存储出发点经纬度坐标,共有 N 行数据,现在需要计算所有离目标点最近的出发点坐标。对于一个目标点来说,我们需要计算所有的出发点到目标点的距离,然后找到最小距离,所以整个中间过程需要产生 M * N 条数据,也就是一个笛卡尔积问题。

发表评论