1、安装
Centos
1.1 必要库
1 | yum -y install elfutils、gcc、kernel-devel、kernel-debuginfo、yum-utils |
1.2 yum安装
1 | yum -y systemtap |
Ubuntu
1.1 必要库
1 | $ apt-get install build-essential |
1.2 源码安装
1 | $ git clone git://sourceware.org/git/systemtap.git |
目前需要使用release4.9分支,安装完成后,在/usr/local/systemtap
2、入门
2.1、简介
SystemTap是一个Linux非常有用的调试(跟踪/探测)工具,常用于Linux内核或者应用程序的信息采集,需要编译时,指定-g选项,比如:获取一个函数里面运行时的变量、调用堆栈,甚至可以直接修改变量的值,对诊断性能或功能问题非常有帮助。SystemTap提供非常简单的命令行接口和很简洁的脚本语言,以及非常丰富的tapset和例子。
2.2、何时使用
定位(内核)函数位置
查看函数被调用时的调用堆栈、局部变量、参数
查看函数指针变量实际指的是哪个函数
查看代码的执行轨迹(哪些行被执行了)
查看内核或者进程的执行流程
调试内存泄露或者内存重复释放
统计函数调用次数
……
2.3、stap命令
1 | stap [OPTIONS] FILENAME [ARGUMENTS] |
2.4、staprun命令
1 | staprun [OPTIONS] MODULE [MODULE-OPTIONS] |
stap命令与staprun命令的区别在于:
stap命令的操作对象是stp文件或script命令等,而staprun命令的操作对象是编译生成的内核模块。
3、脚本语言
3.1、probe
“probe” <=> “探测”, 是SystemTap进行具体地收集数据的关键字。“probe point” 是probe动作的时机,也称探测点。也就是probe程序监视的某事件点,一旦侦测的事件触发了,则probe将从此处插入内核或者用户进程中。“probe handle” 是当probe插入内核或者用户进程后所做的具体动作。
probe用法:
1 | probe probe-point { statement } |
在Hello World例子中begin和end就是probe-point, statement就是该探测点的处理逻辑,在Hello World例子中statement只有一行print,statement可以是复杂的代码块。
探测点语法:
1 | kernel.function(PATTERN) |
PATTERN语法为:
1 | func[@file] |
例如:
1 | kernel.function("*init*") |
在return探测点可以用$return获取该函数的返回值。
inline函数无法安装.return探测点,也无法用$return获取其返回值。
3.2 基本语法
SystemTap脚本语法比较简单,与C语言类似,只是每一行结尾”;”是可选的。主要语句如下:
if/else、while、for/foreach、break/continue、return、next、delete、try/catch
其中:
next:主要在probe探测点逻辑处理中使用,调用此语句时,立刻从调用函数中退出。不同于exit()的是,next只是退出当前的调用函数,而此SystemTap并没有终了,但exit()则会终止SystemTap。
3.3 变量
不需要明确声明变量类型,脚本语言会根据函数参数等自动判断变量是什么类型的。
局部变量:在声明的probe和block(”{ }“范围内的部分)内有效。
全局变量:用”global“声明的变量,在此SystemTap的整个动作过程中都有效。全局变量的声明位置没有具体要求。需要注意的是,全局变量默认有锁保护,使用过多会有性能损失,如果用全局变量保存指针,可能出现指针所指的内容被进程修改,在探测点中拿不到真正的数据。
获取进程中的变量(全局变量、局部变量、参数)直接在变量名前面加$即可。
3.4 注释
1 | # ...... : Shell语言风格 |
3.5 运算符
比较运算符、算数运算符基本上与C语言一样,需要特别指出的是:
(1)、.操作符:连接两个字符串,类似于php;
(2)、=和!:正则匹配和正则不匹配;
3.6 函数
函数的例子
1 | function indent:string (delta:long){ |
官方有很多很有用的函数,详情请参考:https://sourceware.org/systemtap/tapsets/
以及在本机安装了SystemTap之后在目录/usr/local/share/systemtap/tapset/下也可以看具体函数的实现以及一些奇特的用法。
3.7、技巧
3.7.1、定位函数位置
在一个大型项目中找出函数在哪里定义有时很有用,特别是一些比较难找出在哪里定义的函数,比如内核或者glibc中的某个函数想要看其实现时,首先得找出其在哪个文件的哪一行定义,用SystemTap一行命令就可以搞定。
比如要看printf在glibc中哪里定义的:
1 | root@j9 ~ |
可以看出recv是在socket.c第1868行定义的。
甚至可以*号来模糊查找:
1 | root@j9 ~ |
同理,也可以用来定位用户进程的函数位置:
比如tengine的文件ngx_shmem.c里面为了兼容各个操作系统而实现了三个版本的ngx_shm_alloc,用#if (NGX_HAVE_MAP_ANON)、#elif (NGX_HAVE_MAP_DEVZERO)、#elif (NGX_HAVE_SYSVSHM)、#endif来做条件编译,那怎么知道编译出来的是哪个版本呢,用SystemTap的话就很简单了,否则要去grep一下这几宏有没有定义才知道了。
1 | [root@cache4 tengine] |
3.7.2 查看可用探测点以及该探测点上可用的变量
在一些探测点上能获取的变量比较有限,这是因为这些变量可能已经被编译器优化掉了,优化掉的变量就获取不到了。一般先用-L参数来看看有哪些变量可以直接使用:
1 | [root@cache4 tengine] |
可见在该探测点上可以直接使用$shm这个变量,其类型是ngx_shm_t*。
statement探测点也类似:
1 | [root@cache4 tengine] |
可以直接使用这些探测点
3.7.3 输出调用堆栈
用户态探测点堆栈:print_ubacktrace()、sprint_ubacktrace()
内核态探测点堆栈:print_backtrace()、sprint_backtrace()
不带s和带s的区别是前者直接输出,后者是返回堆栈字符串。
这几个函数非常有用,在排查问题时可以根据一些特定条件来过滤函数被执行时是怎么调用进来的,比如排查tengine返回5xx时的调用堆栈是怎样的:
1 |
|
比如看看内核是怎么收包的:
1 | root@jusse ~ |
3.7.4 获取函数参数
一些被编译器优化掉的函数参数用-L去看的时候没有找到,这样的话在探测点里面也不能直接用$方式获取该参数变量,这时可以使用SystemTap提供的_arg函数接口,是根据类型指定的,比如pointer_arg是获取指针类型参数,int_arg是获取整型参数,类似的还有long_arg、longlong_arg、uint_arg、ulong_arg、ulonglong_arg、s32_arg、s64_arg、u32_arg、u64_arg:
1 | root@j9 ~ |
这两个函数的参数完全兼容,只是第二个参数命名不一样而已,可以像下面这么用:
1 |
|
3.7.5 获取全局变量
有时候用$可以直接获取到全局变量,但有时候又获取不到,那可以试试@var:
比如获取nginx的全局变量ngx_cycyle:
1 | root@j9 ~ |
3.7.6 获取数据结构成员用法
1 |
|
3.7.7 输出整个数据结构
SystemTap有两个语法可以输出整个数据结构:在变量的后面加一个或者两个$即可,例子如下:
1 |
|
其中r->pool的结构如下:
1 | typedef struct { |
ngx_pool_s包含了结构ngx_pool_data_t。变量后面加和$的区别是后者展开了里面的结构而前者不展开,此用法只输出基本数据类型的值。
3.7.8 输出字符串指针
用户态使用:user_string、user_string_n
内核态使用:kernel_string、kernel_string_n、user_string_quoted
1 |
|
user_string_quoted是获取用户态传给内核的字符串,代码中一般有__user宏标记:
1 |
|
3.7.9 指针类型转换
SystemTap提供@cast来实现指针类型转换,比如可以将void *转成自己需要的类型
1 |
|
3.7.10 定义某个类型的变量
同样是用@cast,定义一个变量用来保存其转换后的地址即可,用法如下:
1 |
|
3.7.11 多级指针用法
1 | root@j9 ~ |
简言之:通过[0]去解引用即可
3.7.12 遍历C语言数组
下面是在nginx处理请求关闭时遍历请求头的例子:
1 |
|
3.7.13 查看函数指针所指的函数名
获取一个地址所对应的符号:
用户态:usymname
内核态:symname
1 |
|
3.7.14 修改进程中的变量
1 | root@j9 ~ |
可以看出在第17行用SystemTap修改后的值在第19行就生效了。
需要注意的是stap要加-g参数在guru模式下才能修改变量的值。
3.7.15 跟踪进程执行流程
thread_indent(n): 补充空格
ppfunc(): 当前探测点所在的函数
在call探测点调用thread_indent(4)补充4个空格,在return探测点调用thread_indent(-4)回退4个空格,效果如下:
1 |
|
3.7.16 查看代码执行路径
pp(): 输出当前被激活的探测点
1 |
|
可以看出该函数哪些行被执行了
3.7.17 巧用正则匹配过滤
在排查问题时,可以利用一些正则匹配来获取自己想要的信息,比如下面是只收集*.j9.com的堆栈:
1 |
|
3.7.18 关联数组用法
SystemTap的关联数组必须是全局变量,需要用global进行声明,其索引可以支持多达9项索引域,各域间以逗号隔开。支持 =, ++ 与 +=操作,其默认的初始值为0。
例如:
1 | root@j9 ~ |
也可以用+、-进行排序:
1 | root@j9 ~ |
3.7.19 调试内存泄漏以及内存重复释放
在return探测点,使用函数入参需要@entry
1 | probe begin { |
3.7.20 嵌入C代码
在进程fork出子进程时打印出进程id和进程名:
1 | root@jusse ~/systemtap |
有三个需要注意的地方:
1)、SystemTap脚本里面嵌入C语言代码要在每个大括号前加%前缀,是%{…… %} 而不是%{ …… }%;
2)、获取脚本函数参数要用STAP_ARG_前缀;
3)、一般long等返回值用STAP_RETURN,而string类型返回值要用snprintf、strncat等方式把字符串复制到STAP_RETVALUE里面。
3.7.21 调试内核模块
这小节就不细讲了,这篇博客 (http://blog.chinaunix.net/uid-14528823-id-4726046.html) 写得很详细,这里只copy两个关键点过来记录一下:
要调试自己的内核模块,需要注意的有两个关键点:
1)、使用SystemTap调试内核模块,探测点的编写格式示例为:
module(“ext3”).function(“ext3_*”)
2)、需要将自己的模块cp到/lib/modules/uname -r/extra目录中,否则找不到符号,如果/lib/modules/uname -r/目录下没有extra这个目录,自己mkdir一下就可以。
3.7.22 一些错误提示及解决办法
错误提示1:
1 | ERROR: MAXACTION exceeded near keyword at debug_connection.stp:86:9 |
解决办法:
加上stap参数:-DMAXACTION=102400,如果还报这种类型的错误,只需把102400调成更大的值即可。
错误提示2:
1 | WARNING: Number of errors: 0, skipped probes: 82 |
解决办法:
加上-DMAXSKIPPED=102400和-DSTP_NO_OVERLOAD参数
还有一些可以去掉限制的宏:
MAXSTRINGLEN:这个宏会影响sprintf的buffer大小,默认为512字节。
MAXTRYLOCK:对全局变量进行try lock操作的次数,超过则次数还拿不到锁则放弃和跳过该探测点,默认值为1000.全局变量多的时候可以把这个宏开大一点。
3.7.23 传递参数
3.7.24 常用函数
本节来介绍systemtap中常用的一些函数
tid():当前线程ID。
uid():当前用户ID。
cpu():当前CPU编号。
ctime():当前UNIX epoch秒数。
pp():当前探测点的描述字符串
exit(): 执行一次后退出。
execname():当前运行的进程名称。
probefunc():探测点函数名称。
target():在stap使用-c command或者-x process命令时,target()能拿到进程的pid。
name():返回系统调用的名称字符串,仅能在syscall类型的探针处理函数中使用。
thread_indent(delta):它可以输出当前probe所处的可执行程序名称、线程id、函数执行的相对时间和执行的次数(通过空格的数量)信息,它的返回值就是一个字符串。参数delta是在每次调用时增加或移除的空白数量。
@defined和@choose_defined
由于版本变化,有一些变量可能在新版本中不存在了,此时可以使用@define来检查变量是否存在:
1 | probe vm.pagefault = kernel.function("__handle_mm_fault@mm/memory.c") ?, |
@entry
在.return探针中,有一个特殊的操作符@entry,用于存储该探针的入口处的表达式的值,可以使用这个操作符,完成比如计算探针函数执行时间计算等工作,比如:
1 | global sloth = 50 |
这个脚本在vfs.open.return探针处理函数中,通过@entry操作符,计算完成vfs.open操作的时间差,如果超过设置的阈值50就打印相关信息。
-G命令行参数,可以设置全局变量VAR的值为VAL,相应地就可以作为开关来控制脚本的行为,比如:
1 | // sudo stap G-params.stp -G flag=1 |
3.7.25 异步事件
常见的异步事件是begin、end、never、timers。
timers用于定义定时器探测点,常见的格式timer.s(1)来定义每秒触发的探测点。
never定义的探测点不会被调用到,很多时候加这个探测点只是为了检查一些语法错误。