标签：数据库优化

共 36 篇相关文章

IT 累计浏览 3,230

分表优化：千万级数据的插入方法

这篇讲的是对千万级数据进行分表存储时，如何高效地查询和迁移数据。作者没有停留在理论层面，而是直接给出了实操性很强的PostgreSQL SQL片段。具体来说，文章先展示了两种从数字字段中提取首位字符的查询写法：一种是标准的子字符串函数调用，另一种是更常见的简写形式。核心技巧在于，作者演示了如何利用这类字符串函数作为条件，通过一条 `INSERT INTO ... SELECT` 语句，将特定规则（例如 `adv_id` 首位为‘2’且 `media_id` 首位为‘6’）的数据批量复制到新的分表中。通过循环执行这样的复制操作，就能相对快速地完成海量数据的拆分。文章虽然简短，但抓住了分表场景中一个非常实际的动作——数据如何根据规则“落库”，并给出了清晰的语法参考。对于正在处理类似数据迁移或分表任务的开发者来说，这种直接可套用的片段往往比长篇大论更实用。

IT 累计浏览 2,427

sqlite3导入到mysql

这篇讲的是如何将一个膨胀到15GB的SQLite3数据库（具体来自磁力链接抓取工具magnetico）成功迁移到MySQL。作者从实际问题出发：SQLite3文件过大且不支持分布式，因此需要“魔改”为MySQL，但迁移过程卡在了导入环节。文章清晰地拆解了整个流程：先用`.dump`导出SQL，但面对大文件，导入常常中途失败。作者的核心技巧在于利用`awk`按行号切分文件，从失败点重新开始。同时，必须调整MySQL的`max_allowed_packet`参数，并使用`sed`对导出的SQL进行“方言翻译”——比如将双引号包裹的表名改为反引号，并处理十六进制数据，以解决SQLite与MySQL的语法兼容问题。最终，通过这些针对性的步骤和一条关键的`-f`强制导入参数，完成了大规模数据的跨库迁移。对于面临类似场景的开发者，这提供了一套可复现的实战解决方案。

IT 累计浏览 2,426

实例解析MySQL性能瓶颈排查定位

这是一篇典型的故障排查实战文章。作者从线上MySQL实例负载告警入手，完整记录了从操作系统层面到数据库内部的定位过程。通过`w`、`sar`、`top`、`iotop`等命令，一步步锁定了高负载源于某个MySQL实例严重的磁盘I/O等待。深入该实例后，发现瓶颈来自一条低效的SQL查询：它通过正序排序后取最大值，导致每次执行都需要全表扫描500多万行数据。作者将其优化为直接倒序排序取首条记录，将执行时间从上百秒降至毫秒级，性能提升显著。文章最后也总结了此类问题的常见成因，如大单次读写、缺少索引或突发流量等。对于需要处理数据库性能问题的开发者来说，这份从现象到根因的清晰排查路径很有参考价值。

IT 累计浏览 3,897

复杂关联SQL的优化

这篇讲的是如何将一个耗时 750ms 的复杂关联 SQL 优化到毫秒级的过程。作者从一个真实案例出发，通过分析执行计划，精准定位了性能瓶颈：一条只返回一行数据的查询，却因为驱动表选择不当和索引缺失，导致在两张表上发生了全表扫描。优化过程分为两步走。首先，针对 `left join` 的 d 表添加了缺失的 `yh_id` 索引，使其扫描行数从 5 万多行骤降至 272 行。但整体耗时并未改善，因为优化器仍坚持选择 a 表作为驱动表。作者进一步深入分析，发现根本原因在于关联字段 `yh_id` 在 b 表上没有索引，导致优化器认为以 a 表驱动的代价更低。于是，第二步是为 b 表和过滤性极强的 c 表分别添加了 `yh_id` 和 `yh_dm` 索引。索引齐全后，优化器终于“回心转意”，转而选择数据量更小、过滤条件更强的 c 表作为驱动表，执行计划彻底改变，查询时间从 0.75 秒直接降为 0.00 秒。这个案例清晰地展示了，优化复杂 SQL 不能只看单表索引，更要理清表间关联逻辑与数据分布，通过分析执行计划来引导优化器做出正确选择。

IT 累计浏览 4,595

为什么长尾数据的翻页技术实现复杂

这篇讲的是长尾数据翻页的技术复杂性。作者从Key-list类型数据（如好友列表、评论ID列表）的翻页需求出发，指出大部分数据长度较短时，简单的LIMIT offset方案尚可应对，但当数据量达到百万级且访问深页码时，该方案性能会急剧下降。文章核心对比了两种翻页实现：“扶梯方式”（只提供上一页/下一页）与“电梯方式”（支持精确跳转至任意页）。作者解释，扶梯方式通过记录最后一条ID实现O(log n)复杂度的高效查询；而电梯方式因依赖LIMIT offset，在MySQL中需扫描前所有行导致O(n)的复杂度，且难以缓存。面对更大数据规模，文章进一步讨论了分布式数据分片策略。按用户uid分片可高效读取，但数据冷热不均导致存储成本高昂；引入时间维度分片虽缓解存储压力，却带来了数据滚动自动化难、需额外二级索引等新问题。作者最后指出，现有方案均非理想，为后续探讨更优的长尾翻页设计埋下了伏笔。

IT 累计浏览 2,975

数据的存储介质-固态存储SSD

这篇讲的是SSD固态硬盘的性能内幕。作者抛开基础科普，直击几个核心痛点：为什么不同品牌的SSD读写速度差距巨大？为什么解决了磁盘寻道问题后，4K随机写仍是性能瓶颈？而所有问题的答案，最终都指向了一个关键角色——FLASH控制器。文章从NAND闪存的底层特性说起，解释了SLC/MLC的区别、以及闪存“必须整块擦除”的特殊操作。正是这些硬件限制，导致了“写入放大”现象。作者指出，各家控制器处理垃圾回收、磨损均衡和写入策略的算法差异，直接造就了性能上的天壤之别。对于随机写瓶颈，文章分析了块回收跟不上写入请求时，延迟会从250微秒陡增至2250微秒的残酷现实。最后，文章探讨了控制器放在专用芯片还是共享主机CPU上的不同路线之争，并展望了随着控制器算法优化和闪存成本下降，SSD将在高性能存储领域全面取代机械硬盘的趋势。读完能让人明白，SSD的水，远比“无机械结构所以快”要深得多。

IT 累计浏览 3,456

MySQL5.6.7-rc index condition pushdown代码解读

这篇讲的是MySQL 5.6.7-rc版本中Index Condition Pushdown（ICP）特性的源码探索之旅。作者对ICP很感兴趣，于是决定跟踪代码，一探究竟。文章首先通过对比不同索引结构下的`EXPLAIN`执行计划，直观展示了ICP的效果。在单一字段索引下，查询需要先通过索引找到主键，回表取完整数据，再用其他条件过滤。而创建了`(name, info)`联合索引后，像`info like '%1'`这样的条件，能在索引层就先被过滤掉，从而减少了回表次数，执行计划里也不再出现“Using where”。最关键的“真相”在代码里。作者一路跟下去，找到了存储引擎层比较WHERE条件的位置，并直接给出了函数调用栈：从`row_search_for_mysql`开始，通过`row_search_idx_cond_check`，最终调用到`innobase_index_cond`执行条件判断。这个调用链清晰地揭示了ICP是如何在InnoDB引擎内部、在通过二级索引读取记录时，提前将不满足条件的数据过滤掉的，避免了不必要的回表操作，这正是该特性的巧妙之处。

IT 累计浏览 8,544

为什么字段尽可能用NOT NULL，而不是NULL

这篇探讨的是MySQL数据库字段类型选择的核心争议：为什么推荐使用NOT NULL而非NULL。作者从常见的优化建议切入，指出许多文章只抛出结论却未解释缘由，于是从技术细节上深入对比了两者的关键差异。首先，文章澄清了一个普遍误解：很多人误以为NOT NULL会增加存储空间，实际上恰恰相反——NULL列需要额外一个字节作为是否为空的标志位，导致存储开销上升。根据MySQL官方文档，NULL列在行中占用更多空间，尤其在MyISAM表中，每个NULL列甚至引入比特级的额外负担，向上取整到字节级别。更重要的差异体现在查询优化层面。MySQL对可空列的处理更为复杂，难以高效进行索引统计和值比较。例如，可空列

IT 累计浏览 7,778

MySQL优化之 Discuz论坛MySQL通用优化

这篇讲的是作者如何诊断并优化一个号称日均数百万PV的Discuz论坛MySQL数据库。硬件配置不低（双路至强、16G内存、RAID 1+0），但数据库压力仍然很大，大量请求卡在sending data和statistics状态。经过深入分析，作者定位了问题的三个核心瓶颈：一是所有数据表都还在使用MyISAM引擎，导致磁盘物理读很高，内存缓冲效果差；二是论坛使用的MySQL官方5.1版本，其InnoDB引擎的队列处理能力较弱，对于已经转换了InnoDB的表，请求排队依然严重；三是部分尚未转换的MyISAM表，其表级锁成为了并发写入的严重阻碍。文章从这些具体的技术痛点出发，给出了对应的优化思路，对于仍在运行老版本MySQL或处理类似高并发读写混合场景的Discuz论坛，有很强的实战参考价值。

IT 累计浏览 3,487

关于InnoDB索引长度限制的tips

这篇讲的是MySQL InnoDB存储引擎中索引长度限制的实用技巧。作者从一个实际问题出发——有同学遇到了索引长度相关的疑问，然后直接抛出几个关键点进行说明。文章具体梳理了InnoDB单列索引的最大长度限制（3072字节），以及当使用多列组合索引时，总长度是如何按字符集不同进行折算的。比如对于utf8mb4字符集，一个字符占4字节，那么总长度上限能支持的列数就会相应减少。这些细节在设计和创建索引时非常关键，直接决定了索引能否成功创建，以及查询性能会受到怎样的影响。作者还提到，在实际开发中，过长的索引不仅会浪费存储空间，还可能影响写入性能，因此需要根据业务场景进行权衡。对于大字段或长文本，文章暗示了前缀索引等变通方案的存在。这些具体的注意事项和边界情况，帮助读者在面对索引设计时能更清晰地做出判断，避免踩坑。

IT 累计浏览 2,520

布隆过滤（Bloom Filter）-必须了解的优化器算法

这篇讲的是一个因数据库小版本升级引发的性能雪崩事件。作者从一次真实的客户案例出发：将数据库从11.2.0.1升到11.2.0.3，看似无害的操作却导致SQL性能暴跌百倍。根因在于新版本优化器默认启用了布隆过滤（Bloom Filter）特性，这一原本用于优化的算法，在特定查询场景下反而生成了低效的执行计划。文章核心揭示了优化器自动选择的“双刃剑”效应。作者没有停留在描述现象，而是深入剖析了布隆过滤器如何影响了SQL的执行路径，并给出了关键的应对策略——在版本升级后，必须进行严格的性能回归测试，其中比对SQL执行计划的变化是不可或缺的一环。这提醒我们，数据库升级绝非简单的版本号变动，底层行为的改变可能带来难以预料的后果。对于DBA和后端开发者而言，这是一个极具参考价值的踩坑记录。它强调了在享受新特性带来便利的同时，必须对其潜在风险保持警惕，并将执行计划分析纳入标准的升级验收流程，以避免类似性能灾难的发生。

IT 累计浏览 3,429

MySQL数据库负载很高连接数很多怎么处理

当发现数据库负载持续高企，连接数堆积且多数处于活跃状态时，往往意味着系统已接近危机边缘。这篇文章正是从这一典型的生产环境痛点切入，剖析了导致MySQL“快要死去”状态的关键原因。文章的核心价值在于，它没有停留在现象描述，而是引导读者一步步拆解问题。从监控连接状态与活跃线程入手，到分析慢查询、锁等待以及应用层的不合理配置，作者系统地梳理了连接数暴涨背后可能的多重根源。更重要的是，它给出了从紧急缓解到长期优化的实用方法，比如通过`SHOW PROCESSLIST`精准定位问题会话、合理配置连接池参数，以及进行SQL和索引的深度优化。这篇文章直击痛点，为一线运维和开发提供了清晰的排查路径和解决问题的框架，帮助读者在面对类似“数据库窒息”场景时，能够有章法地诊断与恢复，而不仅仅是手忙脚乱地重启服务。

IT 累计浏览 3,200

关于InnoDB表的page利用率和optimize table

这篇讲的是如何用 ibd_used 工具来“透视” InnoDB 表的存储真相，从而重新审视 optimize table 这个常用命令。很多人以为 optimize table 就能轻松回收碎片空间，但作者指出其本质是“重建表”，过程中会锁表、且空间占用会先翻倍再释放，实际效果未必如预期。借助 ibd_used 工具，可以精确量化数据文件中页（page）的实际使用率，直观看到碎片到底有多少。文章通过实例演示，揭示了在某些场景下执行 optimize table 后，页利用率可能并没有显著提升，甚至操作本身带来了不必要的性能开销。基于此，作者探讨了更优的策略：先用 ibd_used 评估碎片的严重程度，如果碎片率不高，则无需盲目重建。对于确实需要整理的表，也提供了选择在业务低峰期操作、或使用 MySQL 8.0 的在线 DDL 功能等更精细的方案。这篇内容提醒我们，解决存储问题不能只凭经验，量化分析才是优化决策的坚实基础。

IT 累计浏览 1,427

2012年数据库技术大会感悟

这篇讲的是作者参加2012年数据库技术大会后的深度思考。文章没有停留在简单的会议流程回顾，而是敏锐地捕捉到了当时数据库领域正经历的一场深刻变革。作者指出，那一年的大会现场，关于NoSQL的讨论热度已从“是否要用”转向了“如何用好”，而更具颠覆性的NewSQL理念则崭露头角。文章重点剖析了这两种思潮背后的核心矛盾：前者为了极致的可扩展性和灵活性，往往需要在一致性上做出妥协；后者则试图借助新型分布式架构，在保证ACID事务的前提下重新定义可扩展性。作者通过现场听到的多个互联网公司案例，具体说明了这种技术选型背后的业务场景权衡——哪些业务适合用MongoDB或Cassandra来快速迭代，哪些核心交易系统又必须倚重新一代分布式数据库来保障强一致性。文章最后的启发在于，技术选型从来不是非此即彼的替代，而是根据业务阶段和数据特性的组合与演进。十年后的今天回看，这种“混合持久化”的架构思想，依然是大多数系统设计的基石。

IT 累计浏览 1,443

oracle 9i数据库存在大量ora_j0**进程

这篇讲的是一个Oracle 9i数据库在实际运维中遇到的典型故障。作者发现数据库系统中突然涌现大量名为ora_j0**的后台进程，这些是Oracle作业调度（Job Scheduler）相关的进程。异常的进程数量不仅占用宝贵的系统资源（CPU、内存），更预示着作业调度系统可能陷入了混乱，例如作业未正常退出、调度频率设置错误或依赖的服务中断。文章深入排查了问题的根因，详细记录了如何通过查询数据字典视图（如DBA_JOBS、DBA_SCHEDULER_JOBS）来定位异常作业，分析其运行状态与错误日志。针对这一问题，作者给出了清晰的解决步骤：包括强制终止僵死进程、修正作业定义、重置调度器状态，并最终通过一系列配置优化来防止问题复发。对于使用Oracle旧版本进行关键业务支撑的DBA或运维人员来说，这篇文章提供了一个完整的故障诊断与处理案例，其排查思路和具体命令操作具有直接的参考价值。

IT 累计浏览 6,460

由12306.cn谈谈网站性能技术

这篇讲的是2012年初，12306.cn购票网站因高并发访问陷入瘫痪，引发全网热议这一技术事件。作者没有停留在吐槽层面，而是选择从网站性能优化的专业视角切入，尝试梳理这类问题背后的技术逻辑。文章并未提供一个“银弹”方案，而是坦诚地基于自身经验，围绕“性能”这一核心，粗略地探讨了系统在架构设计、资源扩展等方面可能面临的挑战与思考方向。作者明确表示，讨论聚焦于性能技术本身，而将UI、用户体验及部分功能设计暂时搁置。从一次公开的系统故障出发，去反思其技术成因与应对之道，对于技术从业者而言，这不仅是对一个热点事件的记录，更是一次将公众关注转化为深度技术讨论的尝试。它提醒我们，面对海量用户的考验，性能问题永远是系统建设中必须直面的硬骨头。

IT 累计浏览 4,606

铁路订票网站个人的设计浅见

这篇讲的是作者对“铁路订票网站12306技术复杂性”这一公开讨论的直接回应。他针对当时关于系统设计难度的言论，提出了一个相当具体且大胆的技术判断：这个系统的设计挑战被夸大了。作者从自身技术经验出发，给出了一个清晰的估算：在他看来，支撑起12306的核心订票功能，一个2人的小团队，在2周的时间内，配合40台服务器的硬件资源，就足以完成开发和部署。这个结论并非泛泛而谈，而是给出了明确的团队规模、时间周期和资源配比，将一个宏大的系统工程问题解构成了可执行、可衡量的具体方案。文章的价值在于，它跳出了对系统复杂性的敬畏情绪，用一种工程师的务实视角，对技术问题进行了“降维”分析。这种将庞大系统拆解为最小可行单元进行思考的方式，或许能给面临类似复杂工程挑战的技术人，带来一种新的、更富信心的审视角度。

IT 累计浏览 2,563

MySQL数据库InnoDB存储引擎查询优化器实现的分析之best_access_path函数分析

这篇深度文章聚焦于MySQL InnoDB存储引擎的查询优化器核心——`best_access_path`函数。作者从优化器如何为一条SQL选择最优访问路径这一具体问题出发，深入剖析了该函数的决策流程。文章揭示了优化器会综合考量索引选择性、扫描行数估算以及IO与CPU的开销对比，来在不同访问方式（如全表扫描与索引扫描）间进行权衡。分析不仅展示了函数内部基于成本模型的计算逻辑，还点出了其设计中的一些精妙之处，例如如何动态比较不同索引的预估代价。对于想理解“为什么我的查询没走预期索引”或希望从根源上调优SQL的开发者来说，这篇文章提供了一个清晰的视角，将优化器的黑盒决策具象化为可理解的成本权衡过程。

IT 累计浏览 4,466

数据库开发规范

这位作者从实际的开发痛点出发，整理了一份数据库开发规范。它不是空泛的理论，而是直接聚焦于团队协作和代码质量，提炼了从建表命名、字段类型选择到索引设计、慢查询处理等一系列关键环节的最佳实践。具体来看，规范会强调诸如使用有意义的命名、避免使用 `NULL` 值字段、谨慎创建复合索引等实操细节。对于查询优化，文章可能给出了分析慢查询日志、使用 `EXPLAIN` 命令等具体方法。这些规则旨在减少歧义、预防潜在的性能陷阱，并提升数据库的长期可维护性。作者在参考各方资料的基础上，将这些分散的点系统化，形成了一套适用于大多数项目的开发公约。对于需要建立或优化数据库开发流程的团队而言，这份提炼好的清单能直接作为团队内部编码规范的起点。

IT 累计浏览 2,770

PHP数组交集的优化

这篇分析针对PHP开发中常见的数组交集性能问题，从实际优化案例出发，对比了内置函数与自定义实现方案。作者首先指出，PHP的array_intersect函数虽然方便，但在处理大型数组时时间复杂度较高，容易成为瓶颈。核心对比对象是array_intersect与基于哈希表的优化方法：前者代码简洁但效率有限，后者通过空间换时间，将查找操作优化到线性时间复杂度，显著提升速度。关键差异在于性能与资源的权衡——文章通过基准测试展示了具体数据，在处理10万元素的数组时，优化后算法比原生函数快约50%，但内存占用增加了20%。各自适合场景方面，小规模数据或内存敏感环境推荐使用array_intersect以保持简洁性，而大数据集或高并发应用则适合采用哈希表优化。整体上，文章提供了清晰的实现思路和性能分析，帮助开发者在PHP中更高效地处理数组操作，强调了根据项目需求灵活