Linux系统调用解析

一般的,进程是不能访问内核的。它不能访问内核所占内存空间也不能调用内核函数。CPU硬件决定了这些(这就是为什么它被称作"保护模式")。系统调用是这些规则的一个例外。其原理是进程先用适当的值填充寄存器,然后调用一个特殊的指令,这个指令会跳到一个事先定义的内核中的一个位置(当然,这个位置是用户进程可读但是不可写的)。在Intel CPU中,这个由中断0x80实现。硬件知道一旦你跳到这个位置,你就不是在限制模式下运行的用户,而是作为操作系统的内核–所以你就可以为所欲为。

进程可以跳转到的内核位置叫做sysem_call。这个过程检查系统调用号,这个号码告诉内核进程请求哪种服务。然后,它查看系统调用表(sys_call_table)找到所调用的内核函数入口地址。接着,就调用函数,等返回后,做一些系统检查,最后返回到进程(或到其他进程,如果这个进程时间用尽)。

具体过程如下图所示:

如何使用系统调用?先来看一个例子:

#include<linux/unistd.h>                /*定义宏_syscall1*/#include<time.h>                        /*定义类型time_t*/_syscall1(time_t,time,time_t *,tloc)    /*宏,展开后得到time()函数的原型*/main(){        time_t the_time;        the_time=time((time_t *)0);     /*调用time系统调用*/        printf("The time is %ld\n",the_time);}        系统调用time返回从格林尼治时间1970年1月1日0:00开始到现在的秒数。        这是最标准的系统调用的形式,宏_syscall1()展开来得到一个函数原型。但事实上,如果把程序改成下面的样子,程序也可以运行得同样的结果。#include<time.h>main(){        time_t the_time;        the_time=time((time_t *)0); /*调用time系统调用*/        printf("The time is %ld\n",the_time);}

这是因为在time.h中实际上已经用库函数的形式实现了time这个系统调用,替我们省掉了调用_syscall1宏展开得到函数原型这一步。

大多数系统调用都在各种C语言函数库中有所实现,所以在一般情况下,我们都可以像调用普通的库函数那样调用系统调用,只在极个别的情况下,我们才有机会用到_syscall*()这几个宏。

调用性能问题

  系统调用需要从用户空间陷入内核空间,处理完后,又需要返回用户空间。其中除了系统调用服务例程的实际耗时外,陷入/返回过程和系统调用处理程序(查系统调用表、存储\恢复用户现场)也需要花销一些时间,这些时间加起来就是一个系统调用的响应速度。系统调用不比别的用户程序,它对性能要求很苛刻,因为它需要陷入内核执行,所以和其他内核程序一样要求代码简洁、执行迅速。幸好Linux具有令人难以置信的上下文切换速度,使得其进出内核都被优化得简洁高效;同时所有Linux系统调用处理程序和每个系统调用本身也都非常简洁。
  绝大多数情况下,Linux系统调用性能是可以接受的,但是对于一些对性能要求非常高的应用来说,它们虽然希望利用系统调用的服务,但却希望加快相应速度,避免陷入/返回和系统调用处理程序带来的花销,因此采用由内核直接调用系统调用服务例程,最好的例子就HTTPD——它为了避免上述开销,从内核调用socket等系统调用服务例程。

Linux系统调用列表进程控制fork 创建一个新进程clone 按指定条件创建子进程execve 运行可执行文件exit 中止进程_exit 立即中止当前进程getdtablesize 进程所能打开的最大文件数getpgid获取指定进程组标识号setpgid设置指定进程组标志号getpgrp获取当前进程组标识号setpgrp设置当前进程组标志号getpid 获取进程标识号getppid获取父进程标识号getpriority获取调度优先级setpriority设置调度优先级modify_ldt 读写进程的本地描述表nanosleep 使进程睡眠指定的时间nice 改变分时进程的优先级pause 挂起进程,等待信号personality 设置进程运行域prctl 对进程进行特定操作ptrace 进程跟踪sched_get_priority_max 取得静态优先级的上限sched_get_priority_min 取得静态优先级的下限sched_getparam 取得进程的调度参数sched_getscheduler 取得指定进程的调度策略sched_rr_get_interval 取得按RR算法调度的实时进程的时间片长度sched_setparam 设置进程的调度参数sched_setscheduler设置指定进程的调度策略和参数sched_yield 进程主动让出处理器,并将自己等候调度队列队尾vfork创建一个子进程,以供执行新程序,常与execve等同时使用wait 等待子进程终止wait3 参见waitwaitpid 等待指定子进程终止wait4 参见waitpidcapget 获取进程权限capset 设置进程权限getsid 获取会晤标识号setsid 设置会晤标识号文件系统控制1、文件读写操作fcntl 文件控制open 打开文件creat 创建新文件close 关闭文件描述字read 读文件write 写文件readv从文件读入数据到缓冲数组中writev将缓冲数组里的数据写入文件pread对文件随机读pwrite对文件随机写lseek 移动文件指针_llseek在64位地址空间里移动文件指针dup 复制已打开的文件描述字dup2按指定条件复制文件描述字flock 文件加/解锁poll I/O多路转换truncate 截断文件ftruncate参见truncateumask 设置文件权限掩码fsync 把文件在内存中的部分写回磁盘2、文件系统操作access 确定文件的可存取性chdir 改变当前工作目录fchdir参见chdirchmod 改变文件方式fchmod参见chmodchown 改变文件的属主或用户组fchown参见chownlchown 参见chownchroot 改变根目录stat 取文件状态信息lstat 参见statfstat参见statstatfs取文件系统信息fstatfs参见statfsreaddir 读取目录项getdents 读取目录项mkdir 创建目录mknod 创建索引节点rmdir 删除目录rename 文件改名link 创建链接symlink 创建符号链接unlink 删除链接readlink 读符号链接的值mount 安装文件系统umount 卸下文件系统ustat 取文件系统信息utime 改变文件的访问修改时间utimes 参见utimequotactl 控制磁盘配额系统控制ioctl I/O总控制函数_sysctl 读/写系统参数acct启用或禁止进程记账getrlimit获取系统资源上限setrlimit 设置系统资源上限getrusage 获取系统资源使用情况uselib 选择要使用的二进制函数库ioperm 设置端口I/O权限iopl 改变进程I/O权限级别outb 低级端口操作reboot 重新启动swapon 打开交换文件和设备swapoff 关闭交换文件和设备bdflush 控制bdflush守护进程sysfs 取核心支持的文件系统类型sysinfo 取得系统信息adjtimex调整系统时钟alarm 设置进程的闹钟getitimer 获取计时器值setitimer设置计时器值gettimeofday 取时间和时区settimeofday设置时间和时区stime设置系统日期和时间time 取得系统时间times 取进程运行时间uname 获取当前UNIX系统的名称、版本和主机等信息vhangup 挂起当前终端nfsservctl 对NFS守护进程进行控制vm86 进入模拟8086模式create_module 创建可装载的模块项delete_module 删除可装载的模块项init_module 初始化模块query_module 查询模块信息*get_kernel_syms 取得核心符号,已被query_module代替内存管理brk 改变数据段空间的分配sbrk参见brkmlock 内存页面加锁munlock 内存页面解锁mlockall 调用进程所有内存页面加锁munlockall 调用进程所有内存页面解锁mmap 映射虚拟内存页munmap去除内存页映射mremap 重新映射虚拟内存地址msync 将映射内存中的数据写回磁盘mprotect 设置内存映像保护getpagesize获取页面大小sync 将内存缓冲区数据写回硬盘cacheflush 将指定缓冲区中的内容写回磁盘网络管理getdomainname 取域名setdomainname 设置域名gethostid 获取主机标识号sethostid 设置主机标识号gethostname 获取本主机名称sethostname 设置主机名称socket控制socketcall socket系统调用socket 建立socketbind 绑定socket到端口connect 连接远程主机accept 响应socket连接请求send 通过socket发送信息sendto 发送UDP信息sendmsg参见sendrecv 通过socket接收信息recvfrom 接收UDP信息recvmsg 参见recvlisten 监听socket端口select 对多路同步I/O进行轮询shutdown 关闭socket上的连接getsockname 取得本地socket名字getpeername 获取通信对方的socket名字getsockopt 取端口设置setsockopt 设置端口参数sendfile 在文件或端口间传输数据socketpair创建一对已联接的无名socket用户管理getuid 获取用户标识号setuid 设置用户标志号getgid 获取组标识号setgid 设置组标志号getegid获取有效组标识号setegid 设置有效组标识号geteuid获取有效用户标识号seteuid 设置有效用户标识号setregid 分别设置真实和有效的的组标识号setreuid 分别设置真实和有效的用户标识号getresgid 分别获取真实的,有效的和保存过的组标识号setresgid 分别设置真实的,有效的和保存过的组标识号getresuid 分别获取真实的,有效的和保存过的用户标识号setresuid 分别设置真实的,有效的和保存过的用户标识号setfsgid 设置文件系统检查时使用的组标识号setfsuid 设置文件系统检查时使用的用户标识号getgroups获取后补组标志清单setgroups 设置后补组标志清单进程间通信ipc进程间通信总控制调用1、信号sigaction 设置对指定信号的处理方法sigprocmask 根据参数对信号集中的信号执行阻塞/解除阻塞等操作sigpending 为指定的被阻塞信号设置队列sigsuspend挂起进程等待特定信号signal 参见signalkill 向进程或进程组发信号*sigblock 向被阻塞信号掩码中添加信号,已被sigprocmask代替*siggetmask 取得现有阻塞信号掩码,已被sigprocmask代替*sigsetmask 用给定信号掩码替换现有阻塞信号掩码,已被sigprocmask代替*sigmask 将给定的信号转化为掩码,已被sigprocmask代替*sigpause 作用同sigsuspend,已被sigsuspend代替sigvec 为兼容BSD而设的信号处理函数,作用类似sigactionssetmask ANSI C的信号处理函数,作用类似sigaction2、消息msgctl 消息控制操作msgget获取消息队列msgsnd 发消息msgrcv 取消息 3、管道pipe 创建管道4、信号量semctl信号量控制semget 获取一组信号量semop信号量操作5、共享内存shmctl 控制共享内存shmget 获取共享内存shmat 连接共享内存shmdt 拆卸共享内存

得意时应善待他人,因为你失意时会需要他们

Linux系统调用解析

相关文章:

你感兴趣的文章:

标签云: