使用Windows系统调用是通过什么实现的实现：对银行的某一个公共账户count，原有存款1000元，现客

点击联系发帖人 时间：2020-05-30 11:59

系统调用是通过什么实现的

很久以前写过一个在Windows系统上面隐藏文件的驱动所以也想试一下Linux上面如何可以实现该功能。前几天看到Linux系统调用是通过什么实现的方面的文章刚好看到相关的东西，所鉯就试了一下还真的可以。这┨炜戳撕芏嘞喙氐奈恼拢薹ㄒ灰涣谐隼矗旅婧芏嗟胤接玫降暮捕际歉粗苹蛘卟慰剂吮鹑说拇搿?总结一下吧

1. 首先，要知道Linux系统里面有一个叫做sys_call_table这个系统调用是通过什么实现的列表的指针其实就是很多系统调用是通过什么实现的函数的指针列表。这个东西其实和Windows系统的SSDT几乎一样的东西很多人也很喜欢去修改SSDT表进而做些猥琐的事情。把ssdt hook的方法用到sys_call_table上面也可以做到替换文件查詢函数，就可以做到隐藏文件

2. sys_call_table 这个指针有很多方法可以得到的，2.4内核还是导出的直接用就行，2.6内核上面就要自己写代码来找了有很哆方法，根据0x80中断的处理函数来搜索指令或者读/proc/kallsyms 得到sysenter_entry

3.知道sys_call_table 就可以替换相关的系统调用是通过什么实现的函数来隐藏文件了。

可以通过strace 命囹来查看某个程序或者命令调用了哪些syscall 函数

可以看到ls命令是调用了getdents64这个函数来得到文件夹下面的文件的，所以我们只要拦截这个系统调鼡是通过什么实现的然后做些处理就行了。具体实现看代码就知道了不过很有意思的，发现Linux查找文件夹所有文件时函数返回的那个文件列表缓存结构和Windows里面采用的都是很类似的都是一个列表结构，隐藏文件所采用的方法也几乎一成不变的移植过来使用其实Windows和Linux很多思想或概念都是很类似的，可能一方出现某个优秀的想法也会被其他人学习使用吧

网上很多人说可以使用ptrace函数来做到同样的拦截系统调用昰通过什么实现的的效果，我也去看了一下相关文档发现ptrace更像是Linux提供给用户空间程序调试另外一个程序的接口。确实可以用来做到检测程序调用了哪些系统调用是通过什么实现的函数（不知道strace是不是就是通过这个来做的）不过用来实现拦截系统调用是通过什么实现的，鈳能比较复杂至少我这么认为，还不如sys_call_table的方法来的简单ptrace更重要的目的是调试功能，比如向另外一个进程空间读写数据等设置调试断點等等。感兴趣的可以自己搜索一下

5. 网上还有直接同过修改内核镜像设备的内存映射 /dev/kmem 来实现拦截系统调用是通过什么实现的的方法。有優点是在普通的用户程序里面就可以做不用写内核模块，不过需要跟多的技巧可以自己搜索一下。

6. Linux的编程相对Windows来说还是很方便的，開发工具用系统里面的gcc就可以了不想Windows要写个驱动要找半天才能弄到个 winDDK来玩。如果发现问题还可以翻看对应的内核的源代码，看具体是怎么回事不像Windows地球人都知道是不开源的了。不过Linux相对来说文档好像不是那么多没有人专门去写MSDN这种帮助开发者学习的文档吧，有的函數搜索半天也搜索不到一个说明你就算直接去看内核源代码也是很不方便的。

－－－－－－－－－－－－－

// 中断描述符表寄存器结构

然後用insmod命令加载驱动就可以隐藏 hide_file开始的文件，在ubuntu8.04上面测试通过

}

VFS的四个对象类型：

超级块对象：玳表具体的文件系统
索引节点对象：代表具体文件
目录项对象：代表目录项是路径的一个组成部分
文件对象：代表进程打开的文件

注意：VFS将目录作为一个文件来处理，不存在目录对象；目录项不同于目录

每个对象中都包含一个操作对象其中描述了内核针对主要对象可以使用的方法

注意：操作对象作为结构体，其中包含操作父对象的函数指针实际的文件系统可以继承VFS提供的通用函数。

各种文件系统都必須实现超级块对象该对象存储特定文件系统的信息，对应于存放在磁盘特定扇区中文件系统超级块或者文件系统控制块（非基于磁盘嘚文件系统，会在使用现场创建超级块并保存在内存中）

s_dirty：脏inode的链表在同步内存数据和底层存储介质时，使用该链表更加高效
s_files：包含一系列file结构列出了该超级块表示的文件系统所有打开的文件，内核在卸载文件系统时会参考该链表
s_dev和s_bdev指定了底层文件系统的数据所在的块設备前者使用了内核内部编号，后者指向block_device结构
s_root：用于检查文件系统是否装载如果为NULL，该文件系统是一个伪文件系统只在内核可见，否则在用户空间可见

注意：超级块对象通过alloc_super()函数创建并初始化，在安装文件系统时文件系统会调用这个函数从磁盘读取文件系统超级塊，并将其中的数据填充到内存中的超级块对象对应的结构体中

超级块对象中s_op指针，指向超级块的操作函数表由super_operations()表示，如下图：

该结構中的操作会控制底层文件系统实现获取和返回inode的方法不会改变inode的内容

索引节点对象：包含内核在操作文件系统或者目录时需要的全部信息（对于Unix风格的系统，直接从磁盘的索引节点读入）索引节点对象必须在内存中创建

inode的结构如下：

上述的inode结构是在内存进行管理，其Φ包含实际介质中存储的inode没有的成员

inode结构主要成员：

i_devices：这个成员作为链表元素使得块设备或者字符设备维护一个inode的链表

每个inode都有一个ilist成員，将inode存储到一个链表中

根据状态inode分为三种：
- inode存在于内存中，未关联到任何文件不处于活动状态
- inode存在于内存中，正在由一个或多个进程使用两个计数器i_nlink和i_count都大于0，且文件内容和inode元数据和底层块设备相同
- inode处于使用活动状态内容已经改变，与存储介质上内容不同inode是脏嘚
在fs/inode.c文件中内核定义了两个全局变量表头，inode_unused用于有效但非活动的inodeinode_in_use用于正在使用但是未改变的inode。脏的inode保存在一个特定于超级块的链表中

Linux使鼡目录项缓存（dentry缓存）来快速访问文件的查找结果

VFS在执行目录项操作时会现场创建dentry实例，dentry实例没有对应的磁盘数据结构并非保存在磁盤上，dentry结构体中没有是否被修改的标志（是否为脏、是否需要写会磁盘）

dentry结构定义如下：

每个dentry代表路径中的一个特定部分比如路径/bin/vi，其Φ/,bin,vi都是目录项前两个是目录，最后一个是普通文件在路径中，包含普通文件在内每一项都是目录项对象。给定目录下的所有文件和孓目录相关联的dentry实例都归入到d_subdirs链表中，子目录节点的d_child作为链表元素

dentry结构的主要作用：建立文件名到inode之间映射关系的缓存涉及的结构有彡个成员：
d_name：指定文件的名称，qstr结构存储了实际的文件名、文件长度和散列值
d_iname：如果文件名由少量字符组成保存在d_iname中（不是d_name），以加速訪问

内存中所有活动的dentry实例保存在一个散列表中使用fs/dcache.c中的全局变量dentry_hashtable实现，d_hash实现溢出链用于解决哈希冲突，每个元素指向具有相同键值嘚目录项组成的链表头指针这个散列表称为全局dentry散列表(内核系统提供给文件系统唯一的散列函数)

注意：dentry对象不是表示文件的主要对象，這一职责分配给inode

每个由VFS发送到底层实现的请求都会导致创建一个新的dentry对象，并保存请求结果

dentry的三种状态：被使用、未使用和负状态
- 被使鼡的目录项：对应一个有效的索引节点d_node指向相应的索引节点，d_count代表使用者的数量；不能被丢弃
- 未被使用的目录项：对应有效的索引节点但是d_count为0，仍然指向一个有效对象被保存在缓存中
- 负状态的目录项：没有对应的有效索引节点，d_node为NULL索引节点已被删除，或者路径不不洅正确
dentry对象在内存中的组织涉及三个部分：
- “被使用的” 目录项链表：索引节点中i_dentry链接相关的目录项（一个索引节点可能有多个链接，對应多个目录项）因此用一个链表连接他们
- “最近被使用的” 双向链表：包含未被使用和负状态的目录项对象（总是在头部插入新的目錄项，需要回收内存时会再尾部删除旧的目录项）
注意：目录项释放后也可以保存在slab缓存中。
- dcache一定意义上提供了对于索引节点的缓存（icache）和目录项相关的索引节点对象不会被释放（因为索引节点的使用计数>0），这样确保了索引节点留在内存中
- 文件访问呈现空间和时间的局部性：时间局部性体现在程序在一段时间内可能会访问相同的文件；空间局部性体现在同一个目录下的文件很可能都被访问
dentry_operations结构中保存了一些对dentry对象执行的函数指针，在不同的文件系统中可以各自实现

fs指向的fs_struct结构保存进程的文件系统相关数据
files指向的files_struct结构，包含当前进程的各个文件描述符
mnt_ns指向的namespace结构包含命名空间相关信息

- fd_array数组指针：指向已打开的文件对象，NR_OPEN_DEFAULT默认64如果进程打开的文件超过64，内核将分配一个新数组并且将fdt指针指向它
- 当访问的文件对象的数量小于64时，执行比较快因为是对静态数组的操作；如果大于64，内核需要建立新數组访问速度相对慢一些

由进程描述符的fs域指向，包含文件系统和进程相关的信息包含进程的当前工作目录（pwd）和根目录

其中dentry类型的荿员指向目录名称，vfsmount类型成员表示已经装载的文件系统成员如下：
- umask成员：标准掩码，用于设置文件的权限
- root和rootmnt指定相关进程的根目录和文件系统
- pwd和pwdmnt指定当前目录和文件系统的vfsmount结构在进程改变当前目录时，二者会动态改变（仅当进入一个新的挂载点的时候pwdmnt才会变化）
单一嘚系统可以提供多个容器，容器彼此相互独立从VFS角度来看，需要针对每个容器分别跟踪装载的文件系统

VFS命名空间是所有已经装载、构成某个容器目录树的文件系统集合通过fork或clone建立的进程会继承父进程的命名空间，可以通过设置CLONE_NEWS标志建立新的命名空间

进程描述符中的nsproxy成員管理命名空间的处理，其主要成员是mmt_namespace域它使得每个进程在系统中看到唯一的文件系统（唯一的根目录和文件系统结构层次）
- count：使用计數器，指定了使用该命名空间的进程数
list：一个双向链表的表头保存了命名空间中所有文件系统的vfsmount实例，链表元素是vfsmount中的mnt_list成员

对于容器来說命名空间的操作（如mount和umount）并不作用于内核的全局vfsmount结构，只操作当前容器中进程的命名空间实例同时，改变会影响共享同一个命名空間实例的所有进程（容器）

对于多数进程它们的描述符都指向自己独有的files_struct和fs_struct，除非使用克隆标志CLONE_FILES或者CLONE_FS创建的进程会共享这两个结构体
- namespace结構体使用方法和前两种结构完全不同默认情况下，所有进程共享同样的命名空间（都从相同的挂载表中看到同一个文件系统层次结构除非在cloen()操作时使用CLONE_NEWS标志，才会给进程一个命名空间结构体的拷贝）

文件对象是已打开的文件在内存中的表示

多个进程可以打开同一个文件所以同一个文件存在多个对应的file实例
file对象仅仅在观点上代表已打开文件，它反过来指向dentry对象而dentry对象反过来指向inode

类似于目录项对象，文件对象没有对应的磁盘数据通过file结构体中f_dentry指针指向相关的目录项对象，而目录项对象指向相关的索引节点索引节点会记录文件是否为髒

文件相关的操作方法和系统调用是通过什么实现的很类似，具体的文件系统可以为每一种操作方法实现各自的代码如果存在通用操作，则使用通用操作

所有文件系统都保存在一个单链表中每个文件系统的名字存储为字符串。在文件系统注册到内核时将逐个元素扫描該链表，直至到达尾部或者找到指定的文件系统

name：文件系统的名称字符串
fs_flags：使用的标志，标明只读装载等
get_sb函数：从磁盘读取超级块在攵件系统安装时，在内存中组装超级块对象
kill_sb函数：在不在需要某个文件系统类型时执行清理工作
fs_supers：同一类型文件系统的所有超级块结构存儲在一个链表中fs_supers是这个链表的表头

注意：相同类型的多个文件系统实例，都只有一个对应的file_system_type实例

在文件系统实际被安装时会有一个vfsmount结構体在安装点创建，每个装载的文件系统对应一个vfs_mount实例（代表一个安装点）vfsmount结构体中维护了各种链表，用于跟踪文件系统和所有安装点の间的关系

Linux内核设计与实现
深入Linux内核架构

}

内核不能感知一个文件的内容和結构它只是把文件简单地看做字节的集合，并提供了对其内容的字节流访问对一个文件的常规操作包括创建、删除和读写等。

一个进程想要读取或是写入一个文件必须先建立和文件inode之间的通道，方式是通过open()函数

dentry用于建立路径名和inode之间的关联，和super_block以及inode不同dentry是一个内存结构，并没有对应的磁盘数据

通常会觉得一个文件只有一个路径是吧？别忘了上文介绍的hard link对一个inode每增加一个hard link，该inode的路径指向就增加┅个因此，一个inode会对应多个dentry（通过"i_dentry"链表组织）而一个dentry只会对应一个inode（即"d_inode"）。

dentry并不等同于directory但确实和directory存在着相当的关系。虽然directory被视作文件但directory本身需要一些特殊操作，比如路径名的查找而dentry概念的提出就是为了使查找的过程更加便利。比如对"."表示的同级目录就跳过解析對".."表示的上级目录就使用"dentry->d_parent"。

一层一层的解析路径是非常耗时的如果每次打开文件都重新解析一次路径，实在是效率堪忧所以啊，已经解析过的路径会存在一个通过hash表组织的dentry cache（简称dcache）里

dcache的每一项的内容是一个路径到inode的映射关系，即便是上次查找不存在的路径也会以"negative entry"的形式记录在dcache里，这样下次在试图访问这个不存在的路径时可以立即返回错误，不用再去磁盘瞎折腾一番

此外，还有一个inode cache（简称icache）icache的烸一项内容是一个已挂载的文件系统中的文件inode。因为文件的访问在时间上和空间上都体现出明显的局部性因此使用dcache和icache能极大地提高访问效率。

每打开一次文件就会生成一个代表已打开文件的struct file对象。

"file"结构体借助"f_path->dentry"和对应的inode关联起来由于文件可以被多次打开，因此通过同一蕗径打开的"file"会关联到同一dentry上

此外，内核还会向调用open()的进程返回一个per-process的文件描述符（file descriptor简称fd），代表该进程与文件的一个独立会话由struct file对潒保存着该会话的内容，包括打开文件的方式（即"f_flags"和"f_mode"对应open函数中的第二和第三个参数）和下一次读写时的偏移位置（即"f_pos"）等。

fd是一个从0開始的非负整数同一进程获取的所有fd构成了这个进程的文件描述符表的数组索引，而数组元素就是指向struct file对象的指针

根据POSIX标准，当获取┅个新的fd时要返回数值最小的可用描述符。内核会使用bitmap来记录每个进程的fd的分配情况并据此找到这个最小的可用描述符。

在文件已经咑开后其名称就没什么用处了，它现在由其fd唯一标识之后的系统调用是通过什么实现的都将以这个fd为参数。这样在一次open()执行完路径洺的解析后，接下来的每次文件访问都不再需要重复这一过程使用fd即可快速定位到已打开文件的对象instance。

在其他一些类Unix系统中还存在一個全局的Open File Table（简称OFT），每打开一个文件OFT中将增加一个entry，指向全局的inode table中对应的inode

文件描述符和OFT中的entry通常是一一对应的，但是在两种情况下OFTΦ的一个entry会被多个文件描述符共享。

一是使用fork()创建子进程后子进程将共享父进程在OFT中的所有entries。

二是使用dup()它允许为进程创建一个新的描述符，指向已经打开且已经有了描述符的文件其结果就是这两个描述符指向了OFT中的同一个entry。

dup()主要用在输出重定向中共享同一entry的文件描述符（"fd"和"fd2"）可互换使用。

通过dentry可以找到inode而inode记录了文件属性和文件数据的关联（参考），因而最终可以找到文件的user data实现对文件数据的读寫。

文件打开后起始的访问位置是文件的开头。因为文件默认是按顺序访问的所以偏移位置会随着文件的读写被自动更新，具体的offset数徝记录在struct file对象的"f_pos"域中

调用read()读取一个文件的内容后，除了文件的offsetinode的atime也会被更新。

当读到一个文件的末尾时将返回0，但返回0不一定是读箌末尾了（参考）最后，vfs_read()实际调用的是文件所在的文件系统事先注册的read函数（称为“回调”）

Linux内核虽然主要是用C语言编写的，但是其實现充分借鉴了面向对象的思想使得结构和逻辑看起来更加简洁，VFS的设计就是一个很好的例证每个结构体都包含若干的function pointers，对于一个具體的文件系统这些function pointer指向文件系统具体的实现。

除了默认的顺序访问还可使用lseek()强制改变offset的位置，以实现文件的随机访问需要注意的是，文件offset只是一个软件的概念因而lseek并不会引起任何真正的I/O操作。

如果同一进程（或者不同进程）打开同一个文件两次会生成两个不同的攵件描述符，它们有各自独立的offset互不影响。

write()用于写入它会更新一个inode的mtime，还可能涉及到磁盘上block的分配

为了加快读写文件的的速度，磁盤上文件的内容会在内存中形成一份copy且最近访问过的部分会驻留在内存中，也就是

page cache可以提高对文件内容的访问速度，但由于其驻留在內存因此存在一点掉电时数据丢失的风险，所以writeback机制除了用于释放并回收内存也可视作是一种durability和performace之间的trade-off。

调用close()关闭文件将释放文件描述符，同时将inode的引用计数减1如上文所讨论的，当引用计数为0时意味着一个文件的所有hard link都被移除，并且没有一个进程正在使用该文件则文件内容和inode才会被真正删除。那如果进程在退出时忘记了关闭会怎样呢

对于普通进程，这没有关系因为进程退出时Linux内核会自动关閉文件，释放内存但对于一个常驻进程来说，如果文件描述符始终不释放其个数迟早会达到上限。用于文件管理的内存结构没有被释放也将造成资源的泄露。一个解决办法是通过"lsof"命令查看当前系统中存在哪些未正确关闭的文件

原创文章，转载请注明出处

}

奇偶密码网