标签：Linux Kernel

共 10 篇相关文章

IT 累计浏览 4,332

一个 VLA （可变长度数组）的实现

这篇讲的是作者如何用C语言实现一个更实用、更安全的可变长度数组库。C99引入的VLA特性因安全问题已被MSVC和Linux内核相继放弃，但在日常开发中，变长数组的需求依然存在。现有的通用方案，如C++的std::vector或简单的void*实现，在类型安全、性能（堆内存分配）和与特定运行时（如Lua）的集成方面各有不足。作者的方案核心是将VLA拆分为抽象的“句柄”和类型化的“访问器”。通过`vla_using`宏，在栈上创建一个指向实际数据的原生指针作为访问器，同时关联句柄，从而在保证类型安全和原生数组访问性能的同时，提供了清晰的API。为兼顾临时使用与持久引用的不同场景，方案统一了栈上缓存与堆分配的切换逻辑。更巧妙的一点是，作者针对与Lua交互的场景，实现了利用Lua GC管理内存的第三种模式：小块内存直接分配在C栈上，大块内存则转为Lua临时userdata，随函数退出自动回收，省去了手动清理的麻烦。整个实现展示了如何在C语言的限制下，通过宏技巧和分层设计，构建出一个既高效又贴合实际工程需求的通用数据结构。

IT 累计浏览 2,847

通过call_usermodehelper()在内核态执行用户程序

这篇讲的是如何在 Linux 内核中“跨界”执行用户空间的程序。作者从内核开发者常遇到的需求出发，介绍了 `call_usermodehelper()` 这个内核API。文章指出了它的核心作用：让运行在内核态的代码（比如模块或驱动）能够主动启动并执行一个用户空间的可执行文件或系统命令，就像在 shell 里敲命令一样。作者还提到了一个关键的实现细节：这个函数最终会调用内核的 `do_execve()`，这和用户态的 `execve()` 系统调用在底层“殊途同归”，但调用路径和上下文完全不同。为了说明如何使用，文章给出了一个加载函数的代码片段示例，演示了调用该API的基本结构。对于需要在内核逻辑中动态触发外部脚本或工具进行日志收集、环境配置等场景，这个接口提供了一条直接通道，理解它有助于编写更灵活的内核模块。

IT 累计浏览 3,053

kmemcache源码浅析

这篇讲的是memcache的Linux内核移植版kmemcache的源码实现。作者深入分析了这个不走寻常路的高性能缓存项目，重点剖析了它如何摒弃了常见的epoll通知机制，转而利用网络数据包 skb 的回调函数，实现了更细粒度的 packet 级调度。文章的核心在于揭示kmemcache独特的网络模型设计：一个dispatcher（调度器）与多个worker（工作线程）协同工作。其中dispatcher专门负责处理TCP和Unix域套接字，并将新建的连接分配给特定的worker；而所有的UDP请求也由这些worker直接处理。在实现细节上，文章拆解了用户态守护进程umemcached与内核模块kmemcache.ko之间，如何通过Netlink机制完成启动参数传递等关键交互。作者结合具体的代码结构（如cn_entry、cn_queue），清晰地展示了“请求-应答”的同步通信流程，以及其中涉及的序列号管理和回调处理等巧妙设计。整体来看，这是一篇扎实的内核级源码剖析，它不仅解释了kmemcache“做了什么”，更细致地拆解了它是“怎么做到的”，对于想理解Linux内核网络子系统优化或高性能缓存实现的读者来说，提供了非常具体的参考。

IT 累计浏览 4,294

一个绝妙的 exploit

这篇讲的是 Linux 内核一个经典的提权漏洞分析。漏洞源于 `perf_swevent_init` 函数中，`event_id` 被定义为带符号的 `int`，而后续检查仅校验了其上界。当传入一个高位为1的负数时，该值能绕过检查并导致 `perf_swevent_enabled[]` 数组越界访问。作者详细剖析了 exploit 的巧妙思路：利用数组越界，分别对一个内核地址和一个用户空间地址（通过精心计算 `mmap` 得到）执行原子加一和原子减一操作，从而探测出数组基地址。更精妙的是，作者选择了修改中断描述符表（IDT）中某个条目的高32位偏移地址。这个地址原本固定为 `0xffffffff`（内核空间），通过一次原子加一，它被变为 `0x00000000`，从而指向了用户空间。如此一来，触发对应的中断（`int 0x4`）便会跳转到攻击者预先布置好的、用于修改进程 uid/gid 的用户代码，最终获得 root shell。整个攻击链条的核心，就是一个看似微小的类型符号不一致问题，经过层层推导和内存布局计算，最终转化为强大的攻击能力，令人印象深刻。

IT 累计浏览 3,928

页缓存概述

这篇讲的是Linux内核中一个关键性能优化组件——页缓存的工作原理与实现。作者将它比作硬件缓存的软件实现，核心思想是利用快速的主存来缓存慢速的磁盘数据，以此大幅减少I/O等待。文章首先解释了页缓存的读写机制：读取时先查缓存，若未命中则加载并可能长期驻留；写入时则直接修改缓存中的“脏页”，并不立即写回磁盘，而是采用延迟写回的策略来合并多次修改。实现上，内核面临两大挑战：如何快速找到特定缓存页，以及如何统一管理来自不同源（如文件、设备）的数据。文章深入剖析了address_space结构如何巧妙地解决这两个问题。它内部维护一棵radix优先搜索树，将所有属于同一所有者的缓存页组织起来，支持高效的查找、插入和删除。同时，通过a_ops钩子函数集，为不同数据源定义了统一的操作接口（如readpage、writepage），让上层逻辑与底层具体设备解耦。最后，文章列出了内核提供的基本操作函数，如查找、分配、添加和移除缓存页，构成了操作页缓存的程序接口。整体来看，这篇文章从概念到实现，清晰地梳理了Linux内存管理中这一精巧的中间层设计。

IT 累计浏览 4,537

深入理解 VXLAN

这篇文章从实际网络需求出发，对比了传统GRE隧道扩展性差、VLAN标识数量有限且难以跨三层边界的痛点，引出了VXLAN（虚拟可扩展局域网）这一关键的二层隧道技术。作者清晰地解释了VXLAN如何通过将二层帧封装在UDP数据包中，并利用24位的VNI来突破限制，从而实现更灵活的大规模网络虚拟化。文章的亮点在于对Linux内核源码的深入剖析。它带领读者看懂了`vxlan.c`中发送与接收数据包的全过程：发送端如何像搭积木一样，在原始帧上依次封装VXLAN头、UDP头和IP头；接收端则相反，通过注册的`udp_encap_recv`钩子函数，一层层剥离外部头部，将内部帧重新注入协议栈。文中展示的代码片段，如组播/单播地址判断和头封装逻辑，让技术原理变得直观可感。如果你对云网络、容器互联或隧道技术背后的实现细节感兴趣，这篇文章提供了一个从理论到内核代码的完整视角，揭示了VXLAN设计中兼顾扩展性与性能的巧妙思路。

IT 累计浏览 4,767

我的内核配置文件

这篇讲的是在 KVM 虚拟化环境中进行内核测试时一个常见却棘手的“坑”：直接将在宿主机（Host）编译的内核放到客户机（Guest）里运行，往往会失败。作者从实践出发，点明了问题背后的两个核心原因。首先是硬件环境的差异，导致 Host 与 Guest 对内核的配置（.config）需求不同。其次是更隐蔽的模块依赖问题，即使将内核模块打包进了 initramfs，它们在运行时仍然需要被正确安装到 `/lib/modules/uname -r` 目录下才能被识别和加载。这篇文章的价值在于，它没有停留在抱怨问题，而是直指问题的根源——内核配置的适配性与模块的完整部署。对于需要在虚拟环境中频繁测试新内核的开发者或运维人员而言，理解这两个关键点，是确保 Guest 能顺利启动和稳定运行的基础。它提醒我们，虚拟化环境下的内核部署，远不止简单的文件复制那么简单。

IT 累计浏览 3,234

free命令中的buffers和cached

这篇讲的是Linux系统中free命令输出结果里buffers和cached字段的区别。作者从同事的日常疑问出发，分享了对这两个内存管理概念的深入解析，旨在帮助读者准确理解系统内存状态。在Linux的内存管理中，buffers指的是块设备缓冲区，主要用于缓存文件系统元数据和块I/O操作的数据，比如磁盘写入的临时存储；而cached则是页缓存，用于缓存已读取的文件内容，以提升重复访问的性能。文章详细对比了它们的实现机制：buffers通常与底层磁盘块直接关联，数据可能在系统重启后丢失；cached则基于内存页，可以持久化存储文件内容，即使进程结束后也可能保留。关键差异在于，buffers更侧重于优化原始磁盘操作，适合频繁的读写场景，如数据库或日志处理；cached则专注于文件级别的缓存，适合多次读取相同文件的应用

IT 累计浏览 3,997

开源世界中的算法与数据结构 3 -- Linux Kernel List 和GList

这篇讲的是 Linux 内核和 GLib 中两种经典链表实现的设计哲学与实践权衡。作者没有纠缠于基本的增删操作，而是从工程实现的底层逻辑出发，对比了它们的差异。核心差异在于内存模型：Linux 内核链表是侵入式的，它不另立节点存储数据，而是将 `list_head` 结构体直接“嵌”到你的数据结构里，通过 `container_of` 宏从节点反推出宿主对象。这带来了极致的内存效率和访问速度，节点与宿主数据一体，缓存友好。但代价是链表节点不能脱离宿主数据独立存在。相反，GLib 的 `GList` 是通用的、非侵入式的。每个节点都是独立的内存块，通过 `prev` 和 `next` 指针串联，节点里用一个 `gpointer data` 指向实际数据。这带来了灵活性——节点可以被多个链表共享，生命周期也容易管理。但每一次插入、删除或访问数据，都需要额外的指针解引用，在性能敏感的内核路径上可能无法接受。文章正是通过这两种截然不同的设计，揭示了在“通用性/灵活性”与“高性能/低开销”之间做选择时的典型工程考量。读完能理解，为何没有完美的链表，只有最适合特定场景的实现。

IT 累计浏览 3,485

t3sas raid卡驱动安装

这篇讲的是在服务器环境中安装T3SAS RAID卡驱动时可能遇到的典型坑点。作者从实际部署经验出发，指出了在Linux系统下识别RAID卡后，驱动安装失败、模块加载报错或存储阵列无法正常挂载的常见现象。问题的根源往往在于驱动版本与系统内核的兼容性问题，或是安装步骤中遗漏了关键依赖库的配置。文章详细梳理了从确认硬件ID、下载匹配驱动源码包，到编译安装、修改initramfs镜像并最终验证的全流程。特别强调了在CentOS/RHEL等发行版中，针对特定内核版本进行补丁编译的实操技巧，以及如何通过dmesg日志精准定位安装错误。作者通过实际案例对比了不同内核参数对驱动稳定性的影响，并给出了在无图形界面环境下利用命令行工具完成调试的完整方案。对于需要自行搭建存储服务器的运维人员来说，这些踩坑记录和具体的解决命令能有效节省排障时间。