资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

C++：perf详解 + Flame Graph火焰图分析程序性能

创作时间:

作者:

@小白创作中心

C++：perf详解 + Flame Graph火焰图分析程序性能

引用

CSDN

https://blog.csdn.net/zzhongcy/article/details/105512565

本文详细介绍了Linux下强大的性能分析工具perf的使用方法，以及如何结合Flame Graph进行可视化分析。通过本文，读者可以掌握perf的主要命令（如perf top、perf stat、perf record等）及其参数，了解如何在不同场景下（如C++、Java程序）进行性能数据采集，并生成直观的火焰图来定位性能热点。

1 介绍

Flame Graph是一个可视化工具，可以将诸多性能检测相关的命令行工具的结果进行可视化展示，方便侦测性能热点。不同火焰图类型包括CPU、Memory、Off-CPU、Hot/Cold、Differential等。其支持将以下工具的采样结果进行可视化展示：

Linux: perf, eBPF, SystemTap, and ktap
Solaris, illumos, FreeBSD: DTrace
Mac OS X: DTrace and Instruments
Windows: Xperf.exe

本文以perf为例介绍（关于perf的用法可以参考perf examples如何在Linux上采集性能数据并且生成火焰图。

2 perf命令简要介绍

perf是Linux下的一款性能分析工具，能够进行函数级与指令级的热点查找。

2.1 Perf List

利用perf剖析程序性能时，需要指定当前测试的性能时间。性能事件是指在处理器或操作系统中发生的，可能影响到程序性能的硬件事件或软件事件。

2.2 Perf top

实时显示系统/进程的性能统计信息

常用参数

-e：指定性能事件
-a：显示在所有CPU上的性能统计信息
-C：显示在指定CPU上的性能统计信息
-p：指定进程PID
-t：指定线程TID
-K：隐藏内核统计信息
-U：隐藏用户空间的统计信息
-s：指定待解析的符号信息
‘‐G’ or‘‐‐call‐graph’ <output_type,min_percent,call_order>

graph: 使用调用树，将每条调用路径进一步折叠。这种显示方式更加直观。

每条调用路径的采样率为绝对值。也就是该条路径占整个采样域的比率。

fractal

默认选项。类似与 graph，但是每条路径前的采样率为相对值。

flat

不折叠各条调用

选项 call_order 用以设定调用图谱的显示顺序，该选项有 2个取值，分别是

callee 与caller。

将该选项设为callee 时，perf按照被调用的顺序显示调用图谱，上层函数被下层函数所调用。

该选项被设为caller 时，按照调用顺序显示调用图谱，即上层函数调用了下层函数路径，也不显示每条调用路径的采样率

注： Perf top需要root权限

2.3 Perf stat

分析系统/进程的整体性能概况

task‐clock事件表示目标任务真正占用处理器的时间，单位是毫秒。也称任务执行时间

context-switches是系统发生上下文切换的次数

CPU-migrations是任务从一个处理器迁往另外一个处理器的次数

page-faults是内核发生缺页的次数

cycles是程序消耗的处理器周期数

instructions是指命令执行期间产生的处理器指令数

branches是指程序在执行期间遇到的分支指令数。

branch‐misses是预测错误的分支指令数。

XXX seconds time elapsed系程序持续时间

任务执行时间/任务持续时间大于1，那可以肯定是多核引起的

参数设置：

-e：选择性能事件
-i：禁止子任务继承父任务的性能计数器。
-r：重复执行 n 次目标程序，并给出性能指标在n 次执行中的变化范围。
-n：仅输出目标程序的执行时间，而不开启任何性能计数器。
-a：指定全部cpu
-C：指定某个cpu
-A：将给出每个处理器上相应的信息。
-p：指定待分析的进程id
-t：指定待分析的线程id

2.4 Perf record

记录一段时间内系统/进程的性能时间

参数：

-e：选择性能事件
-p：待分析进程的id
-t：待分析线程的id
-a：分析整个系统的性能
-C：只采集指定CPU数据
-c：事件的采样周期
-o：指定输出文件，默认为perf.data
-A：以append的方式写输出文件
-f：以OverWrite的方式写输出文件
-g：记录函数间的调用关系
-F：采样评率，采样频率建议在4000以内，避免造成太多开销

2.5 Perf Report

读取perf record生成的数据文件，并显示分析数据

参数

-i：输入的数据文件
-v：显示每个符号的地址
-d ：只显示指定dos的符号
-C：只显示指定comm的信息（Comm. 触发事件的进程名）
-S：只考虑指定符号
-U：只显示已解析的符号
-g[type,min,order]：显示调用关系，具体等同于perf top命令中的-g
-c：只显示指定cpu采样信息
-M：以指定汇编指令风格显示
–source：以汇编和source的形式进行显示
-p：用指定正则表达式过滤调用函数

性能调优时，我们通常需要分析查找到程序百分比高的热点代码片段，这便需要使用 perf record 记录单个函数级别的统计信息，并使用 perf report 来显示统计结果；

举例

perf record -e cpu-clock -g -p 222

-g 选项是告诉perf record额外记录函数的调用关系

-e cpu-clock 指perf record监控的指标为cpu周期

-p 指定需要record的进程pid

3 配置采集

https://superuser.com/questions/980632/run-perf-without-root-rights

Files in

/proc

that are writable are usually changed by echoing a value into them. You should try:


sudo sh -c 'echo 1 >/proc/sys/kernel/perf_event_paranoid'

The files under

/proc/sys/

also have the sysctl command for easy access, so you can instead do:


sudo sysctl -w kernel.perf_event_paranoid=1

(though the

-w

for write seems to be optional). To ensure this is done at boot time create your own

/etc/sysctl.d/99-mysettings.conf

file with the line


kernel.perf_event_paranoid=1

Choose a filename that will not override existing files in

/run/sysctl.d/

and

/usr/lib/sysctl.d/

. See man sysctl.d

4 实例：

4.1 实例1：

4.1.1 安装FlameGraph

wget https://github.com/brendangregg/FlameGraph/archive/master.zip

unzip master.zip

sudo mv FlameGraph-master/ /opt/FlameGraph

添加到环境变量编辑/etc/profile，增加

#FlameGraph

export PATH=$PATH:/opt/FlameGraph

4.1.2 查找程序的pid

$ ps -aux|grep cjdroute

nobody317790.2 0.0 19208 4000 pts/37 S 15:35 0:10 /home/name/cjdroute/cjdns/cjdroute core /tmp client-core-puux8w0hdr7y5kdq9u12qqz7s7cgw5

pid为31779

4.1.3 生成CPU采样文件

sudo perf record -F 99 -p 31779 -g -o in-fb.data -- sleep 60

sudo perf script -i in-fb.data > in-fb.perf

首先使用99HZ的采样频率，对pid为31779的进程进行采样，采样输出到in-fb.data中，采样时长为60秒

4.1.4 生成CPU火焰图

stackcollapse-perf.plin-fb.perf>in-fb.folded

flamegraph.plin-fb.folded>in-fb-cpu.svg

火焰图可以使用浏览器来打开

X轴是CPU时间，色块越宽，表示对应函数占用的CPU时间越多，可能是性能热点。Y轴是函数调用栈，最顶端的是正在执行的函数。如果出现unknow则说明缺少调试信息。

4.1.5 一个简单的脚本


#!/bin/sh

DIR=/your-path/

sudo perf record -F 99 -p $1 -g -o $DIR/cpu.data -- sleep $2

sudo perf script -i $DIR/cpu.data > $DIR/cpu.perf

stackcollapse-perf.pl $DIR/cpu.perf > $DIR/cpu.folded

flamegraph.pl $DIR/cpu.folded > $DIR/cpu1.svg

使用方法：对进程1234采样60秒

bash perf 1234 60

其他脚本：


if [ $# -ne 1 ];then

  echo "Usage: $0 seconds"

  exit 1

fi

perf record -a -g-o perf.data &

PID=`ps aux| grep "perf record"| grep -v grep| awk '{print $2}'`

if [ -n "$PID" ]; then

  sleep $1

  kill -s INT $PID

fi

# wait until perf exite

sleep 1

perf script -i perf.data &> perf.unfold

perl stackcollapse-perf.pl perf.unfold &> perf.folded

perl flamegraph.pl perf.folded >perf.svg

将上面的脚本保存为perf_flame_graph.sh。根据上面的Usage可以看出在执行的时候，只需要指定采样的时间，单位为秒。

4.2 实例2

4.2.1 第1步：下载FlameGraph

[zhongcy@server home/zhongcy]$ git clone https://github.com/brendangregg/FlameGraph

4.2.2 第2步：安装perf工具

[root@server home/root]$ sudo yum install perf

4.2.3 第2步：调用perf进行采样，并设置结果文件权限

[root@server FlameGraph]$ sudo perf record -F 99 -a -g -- sleep 60

[ perf record: Woken up 8 times to write data ]

[ perf record: Captured and wrote 3.975 MB perf.data (47520 samples) ]

[root@server FlameGraph]$ sudo chown zhongcy:zhongcyperf.data

[root@server FlameGraph]$ exit

4.2.4 第3步：生成火焰图

[zhongcy@server FlameGraph]$perf script | ./stackcollapse-perf.pl > out.perf-folded

[kernel.kallsyms] with build id 6a0789weqfsswerwerad891df16787 not found, continuing without symbols

Failed to open [vsyscall], continuing without symbols

[vdso] with build id 6fc7sdfsfwqq5843ecfgg1e7a not found, continuing without symbols

[zhongcy@server FlameGraph]$ ./flamegraph.pl out.perf-folded > perf-kernel.svg

4.3 实例3，调试java程序

因为我们采集的是JAVA进程，perf采集的内容只会显示一个JAVA线程的内存地址，不会详细展示其堆栈信息，因此我们需要另外个工具perf-map-agent 来帮助我们

PS: 感觉火焰图来分析JAVA性能热点还是略麻烦，依赖比较多，单纯看JAVA线程的cpu占用top可以考虑使用greys-anatomy。如果是C++程序或者C程序，用火焰图更加方便些。

4.3.1 安装火焰图

clone下github上项目即可


git clone https://github.com/brendangregg/FlameGraph.git

4.3.2 安装perf-map-agent


git clone https://github.com/jvm-profiling-tools/perf-map-agent

cd perf-map-agent/

sudo yum install cmake

sudo yum install gcc

sudo yum install gcc-c++

sudo cmake .

sudo make

如果cmake提示版本低按照如下方式升级


 wget https://cmake.org/files/v3.6/cmake-3.6.2.tar.gz

 tar -zxvf cmake-3.6.2.tar.gz

cd cmake-3.6.2

 sudo ./bootstrap --prefix=/usr/local

 sudo make

 sudo make install