快速选择合适的机器学习算法
本文主要适用于初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。
一个初学者面临各种机器学习算法的典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括:
数据的大小、质量和性质。
可用计算时间。
任务的紧迫性。
你想用数据做什么。
即使是经验丰富的数据科学家也不能在尝试不同的算法之前,判断哪种算法会最好。 我们并不是倡导一个一步到位的方法,但是我们希望首先根据一些明确的因素来提供一些尝试哪些算法的指导。
本文主要适用于初学者到中级数据科学家或分析师,他们有兴趣识别和应用机器学习算法来解决他们感兴趣的问题。
一个初学者面临各种机器学习算法的典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,包括:
数据的大小、质量和性质。
可用计算时间。
任务的紧迫性。
你想用数据做什么。
即使是经验丰富的数据科学家也不能在尝试不同的算法之前,判断哪种算法会最好。 我们并不是倡导一个一步到位的方法,但是我们希望首先根据一些明确的因素来提供一些尝试哪些算法的指导。
文章探讨了如何选择有助于提升收入的技术栈。作者建议关注数据库、云原生技术(如 Kubernetes)、消息队列(如 Pulsar)等在企业中需求广泛且付费意愿强的领域。深入掌握这些技术有助于在求职和职业发展中获得更高回报。适合后端开发者、架构师以及希望提升自身市场价值的技术从业者阅读。
本文介绍了贪心算法在 CSP-J(信息学奥林匹克联赛入门级)教学中的应用。贪心算法通过每一步选择局部最优解,期望最终达到全局最优。作者强调了排序在贪心算法中的重要性,并提供了 sort 函数和自定义结构体排序的示例代码。文章还推荐了适合教学的题目,如 P2240 部分背包问题、P1223 排队接水等,并附上详细的解题思路和代码实现。适合正在备战 CSP-J 的学生和指导教师参考。
本文介绍了NIST在对抗性机器学习中的分类和术语,分析了攻击阶段、目的和对抗措施,帮助提升AI系统的安全性和鲁棒性。
本文介绍了 Blink-Tree,这是一种 B+Tree 的并发优化结构。通过引入 high key 和 link 指针,解决了并发访问时的性能问题,特别适用于高并发环境的存储引擎优化。如果你对数据库存储引擎感兴趣,这篇文章不容错过!
本文整理自美团技术沙龙第80期《美团内容智能分发的算法实践》,分享内容主要包括三部分。第一部分介绍了大众点评内容搜索的场景特点以及面临的挑战;第二部分介绍了为应对这些困难和挑战,技术团队在链路各环节上做的实践优化,包括内容消费和搜索满意度的优化等等;第三部分是总结和对未来的展望。
在上一篇文章中,介绍了数据库索引的简单概念,以及B树的结构及核心算法,这一篇将继续介绍B树的变形B+树。
这一段时间由于在阅读boltdb代码的缘故,找机会学习了B树及B+树的算法原理,这个系列会花两个篇幅分别介绍这两种数据结构的实现,其用于数据库索引中的基本原理。
工作这些年之后,我将一份工作中满意度的指标大体划分到三个维度里面:钱、事情和人。一份工作,如果有两个维度都能较好的满足自己标准的,就算是一份不错的工作了;反之,只有一个维度满意,这时毫不犹豫就应该换一份工作;三个维度都能很好的工作,可遇而不可求。
在密码学里面,最容易搞混的词估计就是「密码」了,cipher/password/passphrase 都可以被翻译成「密码」,需要注意下其中区别。
这篇文章介绍从零实现一个简单的 AES-128-ECB,其中 128 指采用 128 位密钥块,ECB 指采用 Electronic codebook 分组模式,并为长度不足 128 位的数据块填充 0x00。
本文代码部分选择使用 Python,因为其语法简单而强大,我想把更多时间、精力花在加解密流程上,而非语法细节上。本文所有代码仅供学习研究之用,不要用在生产环境!生产环境请使用流行、成熟的专用密码库,否则可能导致潜在的 Side-channel attack 和其它安全问题。