伤城文章网 > IT/计算机 > 基于Linux的计算系统性能监控

基于Linux的计算系统性能监控


维普资讯 http://www.cqvip.com

第 3 卷  5期  1 第
2 0  1 月 0 7匀 0  















报 

V0 I  No.   l 31   5 Oc .2 0   t 07

J u n lo  n i R Un v r i   fS in ea d Te h o  o r a fNa jn   ie s y o   ce c   n   c n l t

基 于 L n x的计 算 系统性 能监 控  iu
徐 建, 张 琨, 刘凤玉 

( 南京理工大学 计算机科学与技术学 院 , 江苏 南京 2 0 9 ) 10 4 



要: 轻量 级 、 负载 的持 续性 能监控 对 于分布 式 高性 能计 算 环境 的管理 是 至关 重要 的。该  低

文设 计 和 实现 了一个 开放 的 性 能监 控 3 具 P r n 它利 用 Ln x操 作 系统  ̄/ r - . ef 。 Mo iu po c虚拟 文件 

系统 的 内核机 制和抽 象 , 构造 了负责 系统 资源信 息采 集任务 的监 控模 块 ; 用命 名 目录服 务 , 使 提  供 了对所 有 受监控 计算 节点 的透 明访 问和整 个 系统 、 算 节点 、 程 等 3种 不 同的监 控 粒度 ; 计 进 采  用基 于时 间和 阈值 的监 控策略 和基 于采 样 间 隔和 资 源 变化 量 的数 据 重建 策略 , 些措 施 有效 地  这
减 少 了通信 负荷 。最后 , 实验数 据 和应 用 实例 证 明 了 P r n是 一 个 低 负载 、 效 的监 控 工  用 ef Mo 高 具 , 够有效 地 实现 分布 式计 算 系统 的性 能 实时监 控 。 能  

关键 词 : 高性 能计 算 ; 能监控 ; 件 衰退 ; 件抗 衰  性 软 软
中图分类 号 : P3 2 7 T  0 .  文 章编号 :0 5— 8 0 2 0 ) 5—0 2 0  1 0 9 3 (0 7 0 6 2— 6

Li u - a e   ro m a c   o io i g o   m p tng S se s n x b s d Pe f r n e M n t rn   fCo u i   y tm  

XU Ja   in,Z HANG  u K n,L U F n - u I   e gy  
( c ol f o p t  cec n   eh o g , U T N n n  1 0 4 C ia  Sh o o  m ue S i ea dT c nl y N S , aj g 0 9 , hn )   C r n o i 2
Absr c t a t:T i  a e   e i n   n  mp e n sa s aa l  ro ma c   n trn  o lPe f n.I  — h s p p rd sg sa d i lme t   c l be pef r n e mo i i g t o  rMo o tu  tl e   h ii s t e/prc v ru lf e s se ’   r llv lme h n s   n   b ta to si  i u — a e   p r  z o   it a  l  y tm Skene—e e  c a imsa d a sr ci n  n L n x b s d o e — i a ig s se ,wh c   o i e  h   u l ig b o k  o mplme tto   fmul —e e  e o a c   — t  y tm n i h pr vd st e b idn   lc s fri e n ai n o  t lv lp r r n e mo  i fm n trn   d l . I as   k s u e o   mig d r co y s ri e t  o i e ta s a e t a c s o a l io i g mo u e t lo ma e   s   fna n   ie tr   e vc   o pr vd   r n p r n   c e s t  l     n d st    n tr d I  d p s t e mo i rn   oiy b s d o  i   n  h e h l  n   h   e o — o e  o be mo i e . ta o t h   nt i g p l   a e   n t o o c me a d t r s o d a d t e r c n  sr ci g p l y b s d o  h   n trn   a l ae a d u a e i c e n  fe c   e o r e t e u e tu t   oi   a e   n t e mo io g s mp e r t  n   s g  n r me to   a h rs u c  o r d c   n c i t e c mmu ia in tafc . Pe f n alws mo io n   rtc ls se r s u c s a tvte  n  h i  h  o n c to  r f s i rMo   lo   n tr g c ia  y t m  e o r e   c iiis a d t e r i i u iia in a h e   i e e tlv l tl t   tt r e df r n e es:e tr  y t m ,n d z o f n ie s se o e,a d p o e sl v 1 n   r c s e e .Th   e o a c   fPef  e p r r n e o  r- f m Mo  s e au td b   x e me t. n i  v l a e   y e p r n s  i

Ke  o d : ihpr r ac o p t g pr r a c  o i r g sf aeaig sf a   jv — yw r s hg —e o n ecm ui ; e o nem nt i ; o w r gn ; o w r r u e fm n fm on t   t ee  
n to   ai n

收 稿 日期  0 6— 3—1  :0 0 2 7

修 回 日期 :07—0 20 7—2  9

基 金 项 目 : 国 家 自然科 学 基 金 ( 07 0 5    6233 )

作者简介  : 徐建 (99 )男 , 17 一 , 江苏江阴人 , 博士生 , 主要研究方 向 : 软件抗 衰与 自愈 , 信息安全 ,- a :ejn e Em i s i j   l nao
@ 1 .c m 。 63 o  

维普资讯 http://www.cqvip.com

总第 16期  5









刘凤玉

基于 Ln x的计 算系统性能监控  iu

63 2 

软 件 衰退现 象指 的是 一个 长时 间持续 运行 的  软件 系统会 发生 状 态 退 化 和性 能 降低 , 终 导 致  最 系统崩 溃 。发生 软件 衰退 现象 的主要 原 因之 一是  系统 资源 的耗 尽 … 。 常见 的 软 件 性 能 缓 慢 衰 退  的例子 有 内存 泄 漏和 溢 出、 未释放 的文件锁 、 储  存 空间 的碎 片等 。 目前 , 件 系 统 的变 化 趋 势 是 更  软 庞 大更 复杂 , 障这样 的系 统不 问断 正常运 行 , 保 并 
且 持续 地提 供 高性 能 的服 务 是 有 难度 的 。因此 ,  

性 能 , 明 它是一 个轻 量级 、 效 的监 控 工具 。 表 高  

1 系统 模 型   
P r n是 一 个 应 用 于 基 于 Ln x的 分 布 式  ef Mo iu

系统 ( 网格 系统 ) 性 能监 控 工 具 , 如 的 具备 可 定 制  性、 可扩 缩性 和多 粒度 等功 能特性 , 系结 构如 图  体 1所示 。它利 用 了 Lnx平 台下/ rc 拟文 件 系  iu po 虚 统来 获得 完整 的 系统资 源使 用和 系统 活动 的详 细  信息 , 同时 , 能够 根据 监 控 配 置文 件 , 选 择 性地  有

实 时监 控软 件运行 性能 , 尽早 地检 测 出软件 衰退 ,   对 于软件 系统来 说 至关重 要 。监控 工具 采集 的数  据 可以用 来分 析 导致 软 件 衰 退 的 原 因 , 故 障诊  为 断 和软件 自愈 提 供依 据 , 为性 能 预 测模 型 提供 性  能数 据作 为输入 , 于进 一 步 估 计 软 件 衰 退 的程  用 度和 资源耗 尽 的 时 间 ; 这些 数 据 还 能 够 为合 理 的  资源分 配 提供依 据 。   研 究人 员设 计 了一些 监 控 工 具 , 于 完 成 不  用 同粒度 下 的监 控 。Spr o _使 用 Sn P uem n2   uR C的远  程状态 协议 , 不 同 的计 算 节 点 采集 数 据 。 由于  从 该协议 是基 于符 号 表 达 式 的 , 以 能 在异 构 的计  所 算 环境 下通讯 , 是采 集 的数 据 都放 在 中心 数 据  但 库, 没 有 解 决 可 扩 缩 性 和 单 点 故 障 问题 。 并  
D rc 是 基于 Ln x内核 的 系统 级 监 控 工 具 , po  iu 它 

发布用户或应用程序特定的信息 , 实现按需监控 ,  
减少数 据传 输 、 存储 的开 销 。它实现 了系统级 、 计  算 节点 级 和进程 级 3个 层 面 上 的监 控 , 资源 使 用 
状 况 的采集 、 过滤 和 发布 , 时提供 了统 一 的用户  同 接 口 , 以为系统 的性 能分 析 器 、 视化 工具 提供  可 可 数 据来 源 。  

离 / .   .  

\ { ;  

支持可 定制 的监 控 , 够对 信息进 行 过滤 , 能 有效 地 
减 少 通 信 数 据 量 。G iM n 是 一 种 基 于 L A   r o  d DP 目录服 务 的分布 式 网格监 控 系 统 , 可 以灵 活地  它

些嚆堕 一 信; - 息 ;一  『 节 广 点 雌
宰 一  

将 静态 和动态 信 息 结 合 在 目录层 次 中 , 少 了客  减 户 端对 服务 器 的 交 互 次数 ; 同时 借 助 于 L A D P的 
目录层 次 , 立 了网格 系统 的树状 基本 结构 , 出  建 提

2 设 计 与 实 现 
P r n监控 系统 的主 要 功 能模 块 和 子模 块  ef Mo

了网格监 控 对 象 和 监 控 事 件 的 概 念 及 其 表 示 方 
法 , 而形成 完整 的 网格 监控 结构 模 型 。 从   本 文设计 和实 现 了一 种基 于 Ln x平 台 的分  iu 布式 监控 工 具 P r o , 可 以实 现整 个 系统 、 ef n 它 M 监  控节 点 和进程 级 3个 不 同层次 的监 控 。通过命 名 

的构成如图 1 和图 2所示 。为叙述方便 , 将性能 
信息 库 ( eomac  f ao ae 缩 写为 PB  pr r nei o tnbs) f nr i m I。
监控 管理 器作 为核 心模块 通过 与之 相连 的控 制通 

道接 收控 制事 件 , 调 系 统 行 为 。一 旦监 控 管 理  协
器部署 到监 控节 点 , 件处 理 器 作 为 一个 守 护 进  事 程, 以轮询 的 方 式 每 隔 P L — N E V L时 间监  O L IT R A 听控制 通道 。如果 接 收 到 控 制 事 件 , 事件 处 理 器 

目录服务 提供 了对监 控 计 算 节 点 的透 明访 问 , 单  个计 算节 点 的历史监 控 数据集 中化 存储 在一 个性  能信 息库 , 所有 计 算 节 点 的历 史 监 控 数 据 分散 化  存储 在若 干个 性 能信 息 库 , 效 地 避 免 了集 中化  有 存储 带来 的单 点故 障问题 。监 控管 理器作 为监 控  系统 的核 心模 块 , 协调 了整 个 监 控 节点 的数 据 采  集、 滤、 过 封装 、 输 等 活 动 。它 采用 基 于 时 间和  传 阈值 的监控 策 略以及相 对应 的基 于监 控样 本率 和  各 种 资源变 化量 的重 建 策 略 , 有效 降低 了监 控 节 

就负责 解码 事件 类 型 , 据 事 件 类 型将 事 件 信 息  根 转 发给 注册 器 、 滤 器 或 数 据 封装 器 处 理 。事 件  过
处 理器 能够 处理 的事 件类 型 有 4种 : 更 监 控 过  变 滤 器 , 销 和 注册 监控 模 块 , 询 可用 监 控 服务 , 注 查  

请求监控数据 。监控管理器上同时还运行了另一 
个守 护线 程 , 它负责 调用 监控 模块 采集 性能 数据 ,  

点和 PB之间的通信负载 , I 使得对所监控节点的  资源 占用和影 响减到最 小 。最后 用实 验评 价 了其 

而后过滤和封装 , 再发送给 PB I 。注册器 负责根  据 注销 和注册 监控 模块 事件 来注 册或 注销 已加载 

维普资讯 http://www.cqvip.com

64 2 















报 

第3 1卷第 5期 

监 控 的监控模 块 ; 滤 器根 据 变 更 监控 过 滤 器 事  过

种 资 源 r 的 变化 依 赖 于 使 用 这 种 资 源 的应 用 程    序 , 们 各不 相 同 , 它 因此 , 资 源消 耗数 据 的更新  其 速 度也 不相 同 。本 文提 出 了基于 时 间和 阈值 的监 
控 策略 , 按照 时 间划分 为 : 以秒为单 位 的细粒 度 ;  1


件 设 置或更 改数 据 采 集 和 传 输 的过 滤 条 件 ; 据  数 封 装 器根据请 求 监控 数据 事件对 采 集 的数 据进 行 
编 码封 装 。  
数据通道 f  
监  控 
节 

1  i 间的 中粒 度 ; 十 分 钟 的 粗粒 度 。细  0 m n之 几

i 控制通道 

粒 度监 控策 略 占用 所 监控 节 点 的资 源 相 对较 多 ,  

监控管理器 

对所监控系统 的影响相对较大 , 同时性能数据传 
输负荷也比较大 ; 粗粒度可能会增大软件衰退信  息 丢失 的可 能性 ; 中粒度 是 比较 折 中的选 择 。所 
有 这 几种系统 资 源 的监 控 阈值 为 A i , , , r,=1 … 凡  监控 时 间间 隔为 △ , 于 时 间和 阈值 的监 控策 略  f基 如下 : 护线程 每 隔  时间采 集 n种 系统 资源 的  守
耗 费数据 r I 于每 一个 r 如果 公式  。对 I , ()   t ∈r () ( )  ( —A ) >A   t   t 一 t t I r 成立 , 由数 据封 装  则

点 

l}    fI 垂蒌  
Op rt g S se   eai   y tm n

C U MONl M M O l SM O l TM O 1 R P 1 ME Nl F N 1 NE Nl OCM O P N 

图 2 监 控 管理 器 和 监 控 模 块 模 型 

2 1 系统运 行 时的度 量  . 

器编 码该 数 据并 发送 给 PB, 则 监 控 数 据 不 会  I 否

系统 运行 时 的度 量 是 检 测 软件 衰退 、 测 软  预 件进 行 自愈操 作最 优 时间 的数据 来源 。本 文使用 

被编码发送 , 这样有利于减少数据传输负荷。PB I 
接 收到监 控数 据后采 用 相应 的重建 策 略还原 出完 

各个计算节点上计算和通信资源的集合作为系统  运行 时 的性 能 度量 , 为 2大部 分 : 分 一是 系统 固有  的 , 照 资 源 种类 分 为 C U、 按 P 内存 、 络 、 件 系  网 文
统; 另一部 分 是与 计 算 节 点上 运 行 的特定 应 用 相 
关 的进程 。监 控模块 通 过访 问 Ln x平 台下 的虚  iu 拟文 件 系统 / r p0 获 取 系 统运 行 时 度量 的 当前  c来

整 的监控 数据 , 具体 的重 建策 略见 2 4节 。 .  
2 3 数据通 信  .

依据通 信 双方 的不 同 , 信包 括 客 户 应 用 程  通 序与 PB、I 监控管 理 器和监 控管 理器 与监 控  I PB与 模 块 之间 的通信 。客 户应用 程序 与 PB之 间 的通  I 信 有 2种通 信 模 式 : 一种 是 基 于查 询/ 响应 方 式 ;  
另 一 种则是 基 于 订 阅/ 布模 式 。前 者 使 客 户应  发

值, 按照其 监控 的系统 资源种类 可 分为 :  
() P — O 1 C U M N。该 模 块 用 来 获 取 C U使 用  P 率 , 且提供 获 取过 去任 意时段 内 C U的负 荷 。 并 P   ( ) M— N。该 模 块 用 来 采 集 系统 当前  2 ME MO

用 程 序能立 即获 取与 特定 监控节 点相 关 的 由查询 
条 件指定 的性能 数 据 ; 后 者 则是 由发 送 方根 据  而

订阅方预设的参数控制数据发送 , 传送 中不需要 
订 阅方 向发送 方 传 送 数据 , 当然 也可 实 现 自适 应 

物理 内存 的使用 状况 , 空 闲的物理 内存 、 如 使用 中  的物理 内存 、 页率 , 换 共享 内存 等 。  
( ) E — N。该 模 块 用 来 监 控 本 地 已 经  3 N T MO 建 立 的连接 个数 , 每个 连接 上 的 网络 流量 、 数据包 

的或订阅方预设的传送算法。与前者相 比, 后者  能有 效地 减少 网络 带宽 的 占用 。PB与 监 控管 理  I
器 之 间通 过数 据 通 道 和控 制 通 道 相连 , 通信 相对  复杂 。数据通 道 是 一个 单 向通 道 , 监 控管 理 器  与

的丢包 率 、C T P数据 包 的差错 重传 次数 等 。  
( ) S MO 4 F — N。该模 块 用 来 获 取 文件 系统 中  临时 目录 的使用情 况 , 临时 目录空 间大小 、 如 可用  空 间大 小 、 已使用 空间 大小 、 文件 表 的大小 和空 闲  的交换 空 间大小 等 。   ( ) R C M N。该模 块 能 够获 取 进 程 表 的  5PO — O 大小 , 每一 个进 程 的运行 状 态 , 占用 的 C U 时间 、 P  

的数据 封装 器相连 , 把监控 数据 传送到相应 的   PB 为了减 少通 信数 据 负载 , I, 采用 了不 可靠 的  U P数据报协议来传输 ,. 节将会 阐述 的重建  D 24 策 略处理 可能 丢包情 况 。控制 通道 是一个 双 向通  道, 与监控管理器的事件处理器相连 , 传递过滤信  息 、 据请求 信 息和服 务查 询信 息等 ; 注册器相  数 与 连, 传送注册器发布的可用监控服务信息。控制   信 息 的丢 失 对 于 监 控 管 理 器 的 监 控 行 为 影 响较  大, 因此 , 了确保可靠的接收控制信息 , 为 采用了  
T P I 议 。为 了统一 , C / P协 本文 设计 了一个 简单 的  协议 , 放置 在 U P或 T P数 据报 文部 分前 面 。协  D C

使 用的物 理 内存 等 , 使得 能够 实现 进程 级 的监 控 。  
在 Ln x 台下 , =/ rc 够 获 取 的反 映  i 平 u 基 J po 能 Z

系统 运行 时状 况 的参 数 有 成 百 上 千 , 对不 同 的  针 监控 要求 可 以有选择 性 的选取 , 里不 一一列举 。 这  
2 2 监控 策 略  .

假设每个监控节点有 几种 系统资源  每一 

议 格式 如 图 3所示 。其 中协议 类 型字段 用 3位来 

维普资讯 http://www.cqvip.com

第 16期  5









刘凤玉

基于 Ln x的计算 系统性 能监 控  iu

65 2 

表示 , 目前 只有 3种类 型 , 别是 MM? A A、   分 D T MM? P B和 PB MM, I I. MM. A A 表示 数 据 部 分 为 监 控  DT

X ML文 件 的 和 基 于 数 据 库 的存 储 。这 三 种存 储  方式 的存 在都 有特 定 的用途 : 采用 基 于 X L文 件  M 的方式 , 目的在 于提高 监控 数据 的存储 速度 , 因为 

数据 , 其他 两种情 形表 示数 据部 分 为控制信 息 ; 选  项 字段 用 3位 来 表 示 , 分别 代 表事 件 处 理 器 处理 
的 5种事 件类 型 。 因此 , 有 当协 议 类 型 为 M   只 M. PB和 PB MM 才 会 采 用 选 项 字 段 ; 据 长 度 字  I I. 数

按照 23节中的数据通信协议 , . 监控数据是以基  于X ML的格 式 编码 的 , I 接 收 到这 样 的 数据  P B在
包时, 解码 后存 储需 要更 多 的时 间开销 , 在高 性能 
的监 控环 境下 , 控 采 样 时 间 间 隔可 能 是 以 毫秒  监

段 用 4个字节 来 表 示数 据 大 小 ; 据 可 以是 控 制  数 信 息 , 可 以是监 控数 据 。 也  

来计算的, 使用 X L文件 的方式存储 可 以避免  M PB成 为整 个 监控 系统 的 瓶 颈 ; 用 基 于 数 据 库  I 采
的存储 方式 , 目的 在 于 方便 客 户 应 用 程序 获取 历  史 数据 用 于性能 分 析 和 故 障 诊 断 , 据库 中 的数  数

图 3 通 信 协 议 的 报 文格 式  

据是 以离线 的方 式从 基 于 X ML文件 的存 储 中获  取的; 当客 户应 用程序 以查 询/ 响应 方式 获取 当前 

2 4 重建 策 略  .

PB负 责重建 性能 数据 以维 持性 能 数 据库 的  I

完整性。在两种情况下需要数据的重建策略 : 第  种 情形 是 由 2 2节 所 述 的 监 控策 略引 起 的 ; . 另 
一 一

时刻计算系统的性能数据时, 基于 内存 映像 的方  式 因为 缓存 了最 新 的性 能 数 据 , 免 了数 据 库 查  避
询和文 件获 取 , 以缩 短 了响应 时 间。多 种 存 储  所 方 式 的存 在 极 大地 增 加 了 PB的灵 活 性 , 高 了  I 提 监 控数 据存储 和访 问的速度 。   性 能数 据库 提供 的多 协 议 的通 信接 口, 使得 
在 异构平 台下 的客 户 应 用程 序 能 访 问监 控 系统 ,  

种 情形 是 由于使用 不 可靠 的数据 传输 协议 

U P来 传 递性 能监 控 数 据 , 可 避 免 会 发 生 的 。 D 不   为此 , 出了基 于监 控 样 本 率 和 不 同 系统 资 源 的  提 变化 量 △ i , , ) 重建 策 略 , 个 重 建 策   ( =1 … n 的 整
略分 为如下 3步 :  

获取监控数据 。支持与不同客户端通信的功能通 
过相 应 的适配 器 来 实现 , 不 同种 类 的适 配 器 则  而 由多 协议 通信 接 口层 来 封 装 , 成 对 监 控 系统 的  完 管理 行为 。 同时多 协议 通信接 口层 提供 了较 好 的 
可扩 展 性 , 于 Jv  MI 术 的 新 类 型 的 适 配  基 aaR 技

() 1 依据 监控样 本 率 选 择历 史 数 据 窗 口的大  小 W 。若采 用粗 粒 度 的监 控 , S 则设 置 WS=5 若  ; 采 用 中粒度 的监 控 , 设 置 W 5 若 采 用 细粒  则 S= 0;
度 的监 控 , 设置 W 则 S=1 0  0;

() 2 依据 W , S 计算从 当前 时刻 到之前 W S时  刻之间, 每一 种 系统资 源变化 趋 势值  ;  
() 3 依据 公式 
r  

器 , 在运 行 时动 态 地从 监 控 目录服 务 器下 载类  可
代码 , 部署 到 PB上 , I 无须 重新 启 动 P B   I。

(  一△ )+A i i   r f    

>  0

3 原 型 实现 
P r n采 用 Jv 技术 实 现监 控管 理 器 ,aa e Mo f aa Jv 

r)【t £   ir =   = £一£  。 wie (  ( △ t r( 一△ ) f s  0   )一△ te h
从上 一时 刻 的数 据 重建 当前 的性能 数据 。  
2 5 性能 数据 的存储 和 访 问  .

动态 、 灵活 、 可移 植 的特 征 使它成 为在 异构 网络 及 

平台上构造系统的理想选择。监控模块则是采用 
C语 言 实现 , 因为 Ln x系 统并 不 提 供 Jv i u aa内核  进行 调用 的接 口 , 且 C语 言在 Ln x内核 级 实  并 i u 现对 虚拟 文件 系统/ rc的调用 更快 , 高效 。监  po 更 控管 理器 通过 Jv aa的本地 接 口 J I N 对监 控模 块进 

性能信 息 库有 两 个 重要 的功 能 : 是 提 供 了  一 3种存 储 监 控数 据 的方 式 ; 二是 为 客 户 端 提 供 了  多通信 协议 接 口来 控 制监控 系 统行 为和获 取监 控 
数 据 。该模 块 的结 构 图如 图 4所 示 。  

垩 堡旦 垩 堡!呈 堡 I堕里 I 里   堡 I 堡 l   堡! 堡! 翌     !  
多协议通信接 口  
PB 心 层  I核

行管 理 。Pr n实 现 的最 小 时 间 粒 度 的采 样 时  ef Mo
间 间隔为 1s   。

基 于数据库 的存储  基 于X/L的存储  v I 内存 映像 

在 复杂计 算 系统 中 , 了将 散 乱 的 网 络拓 扑  为

结构和计算系统的层次结构隐含统一在 目录的层 
次中, 支持 远程 目录 信 息 的访 问和 类 似 目录结 构 

图 4 支持多种客户端类型的 PB的层次结构  I

性 能 数 据 库 提 供 了 基 于 内存 映 像 的 、 于  基

的层次递增 的信息存储方式 , 本文采用 了轻量 目   录访 问协议 定 位 、 名和 描 述 网络 中具 有结 构 化  命

维普资讯 http://www.cqvip.com

66 2 















报 

第 3 卷第 5期  1
表 1 监 控 程 序 耗 费 的 系统 资 源 

特征 的数 据 , 是在 X 5 0目录访 问协 议标 准 简  它 .0 化 的基 础 上 形 成 的 , 用 了 T P I 采 C /P协 议 来 提 供  透 明的信息 访 问 和数 据 操 作 功 能 , 能够 有 效 地 满  足计算 系统 性 能监 控 的需 要 , 布 所有 的监 控 节  发

点 及其 相应 的 PB的位 置信 息 。原 型系统 实现 中  I 采 用 了基 于 L A D P轻 量 目录访 问协 议 的开 源项 目  
oeL A p n D P作 为 目录 服 务 器 , 现 监 控 目录 服 务  实
功能 。  


个完 整 的数据采 集 过程所 需 的时 间耗费包 

性 能信 息库 的数 据存储 以上 文 描述 的三种 方  式 实 现 。对 于 其 中 的 以数 据 库 方式 的存 储 , 以  可
选 择任 意 的关 系数 据 库 如 D 2 S L E V R等 , B ,Q S R E   原 型 系统 中采 用 了轻 量级 的开 源项 目 My Q 同  S L,

括: 从所 注册 的 各个 监 控 模 块 采 集监 控 数 据 的 时  间 ; 据用 户设 置 的过 滤 器 对 采 集 的数 据 进 行处  根

理 的时 间 ; 过 滤后 的数 据 根 据 传输 协 议 进 行 编  把

码的时间 ; 数据传 输到性 能信 息库的时间。表 2  
所列 的 条件 1和条 件 2采样 间隔 都为 1s都 采用   ,
所有 模块 , 同之处 在 于前 者不施 加任 何过 滤器 , 不  

时性能 数据库 提 供 了统 一 的接 口, 不 同类 型 的  供 客 户应 用程序 实 现 对 监控 系统 的控 制 、 控 信 息  监
的获取 等功 能 。  

数 据量 为 125B; 者每个 监控 模块 都施 加过滤   9  后
器 , 据量 为 5 8B 数 7   。从 表 2可 以看 出 : 4个 阶  在

4 实验 评 估   
本 节所有 实 验都 是 在 由 8台主 机 通 过 10   0M

段 中 , 集和传 输 时间相 对较 长 , 采 而两种 条件 下采 
集 时间应 该是 基本相 同的 。条 件 2中因为增加 了 

过 滤功 能 , 减少 了一部分 的监 控数 据量 , 使得 传输 
时 间和 编码 时间 的 耗 费减 少 , 且 这 个 减少 量 大  并 于 由于增 加过 滤 功 能带 来 的过 滤 时 间耗 费 , 因此  完成 一 个 监 控 采 集 任 务 所 需 的总 时 间 减 少 。另 

的网络适配器互联构成的局域网内完成。 有主  所 机 的主频 都是 24G、9  z52M 物 理 内存 , .  59MH ,1    每个 主 机 都 运 行 红 帽 子 Lnx 其 内 核 版 本 为  iu ,
2 5 1 。实 验 的 目的是 为了证 明 Pr o . .0 ef n是 :1  M () 轻量 级 的 , 即运行 在 每 个 受监 控 计 算 节 点 上 的监  控程 序尽 可能少 的 占用 系 统 资源 ;2 高效 的 , () 即  在特 定 的采 样 间 隔 和监 控 数 据 量 下 , 成性 能 信  完
息采 集任 务 所 需 时 间 开 销 在 可 接 受 的 时 间 区间  内, 小 于采样 间 隔。 且   P r n能 够 实 现 进 程 级 的 监 控 , 以能 够  ef Mo 所

外 , 种 条件下 采 集 过程 的 总 时 间都 低 于最 高 的  两 采样 频率 , 因此 , 在将最 高采 样频 率进 一步 提高  存 到毫 秒级 的可 能性 , 这样 将 有 助 于更 准确 的感 知  系统 的性能 状态 , 现软件 衰退 的检 测和 预测 。 实  
表 2 监 控 数 据 采 集 过 程 的 时 间耗 费 

监 控 自身进 程 所 消 耗 的 系 统 资 源 。这 里 选 择 了  3个 监 控 节 点 , 个 监 控 节 点 都 部 署 了 C U— 每 P  
M O N 、 EM M ON 、 S M F




MO N和 N T MO E — N模 块 ,  

采 样 频 率 为 1s   。选 取 C U使 用 率 、 存 使 用  P 内 率、 交换 空 间使 用 率 和 网 卡 数 据 流 量 作 为 代 表 ,  
实 验 数据 列 于 表 1 。从 表 1中可 以 看 出 , 有 监  所

5 应 用 案 例 
本节 给 出 了一个 把 原 型系 统 应 用 到 WE B服 

控 节点 的 C U 使 用 率 都 不 足 1 , P % 内存 使 用 率  不 足 2 ; 别地 , 换 空 间使 用 率 为 0 这 是 因  % 特 交 , 为 有 足够 的 物 理 内 存 , 以 暂 时 没 有 发 生 页 面  所

务 系统 的案例 。实验 的环 境 由 4台主 机构 成 . 通  过 10M 的 网 络 适 配 器 互 联 。其 中节 点 1充 当  0 

换 出。不施加任何过 滤器的 4个模块 的监 控数  据 大 约 为 5 0个 字 节 , 上 传 输 协 议 的 开 销 . 0 加  
5 m n 总计 数 据流 量 大 约 1 0k 。从 上述 数 据    i的 5 B

W B服务 提供 者 , E 运行 A ah pce和 Tm a 服 务  o ct 器 ; 点 2作 为 客户 端 运 行 htef 件 模 拟 真 实  节 t r软 p
网络 的负 载生成 ; 节点 3作 为 监 控 目录服 务 器 提  供 定位 和命 名服 务 ; 点 4充 当 PB 提供 数 据存  节 I,

可 以看 出 ,ef n的监 控 程 序 仅 耗 费 很 少 的 系  Pr Mo

统资源 , 对于系统的运行影响很小 , 是一个轻 量 
级 的监 控工 具 。  

储和监控控 制。实验 中采用 的监控时 间间隔为 
1s   。使 用基 于小 波 和 神 经 网络 相 结 合 的算 法 

维普资讯 http://www.cqvip.com

茁 ._×厦    0 I

譬 旺 
2   2  

总第 16期  5









刘凤玉
3  

3  

基 于 Lnx的计算系统性能监控  iu
3  

67 2 

8 

4 

O  

6  

2 

来分析 2 个有代表性的系统计算资源物理内存和 
交换 空 间的使 用情 况 , 别 给 出 了资 源 的耗 尽 估  分
计时 间 。  

6 结束 语 
本 文设 计 了一 种 可扩 展 的 、 量 级 的性 能监  轻

图 5显示 了监 控 时 间 内节 点 1物理 内存 的使  用变化情况 。将 采集 的数 据样本分 为 7份 , 6份  前 用 于训练算法 , 一份采用 N S 后 M E评 价预测算 法 的  精度 , 实验结果表 明算法 的误差 为 00 。当前使用  .7 的物理 内存 为 324MB, 假 设 物理 内存 的警 戒  1.  若 值 为 50MB, 计算 结果 再经 过 214  0  则 8.5h将 到达  这 个警戒值 。  

控 工具 Pr o , ef n 可应 用 于基 于 Lnx的 分布 式 系  M iu 统 。Pr o 用 Lnx系统 中/rc虚 拟 文 件 系  e M n利 f iu po 统 提供 的接 口 , 够完 成 系 统 级 、 算 节 点 级 、 能 计 进  程 级 的资源使 用 和系统 活动 等 的多粒 度监控 。通 
过 修改监 控配 置 文 件 或者 增 加 过 滤 器 , 够动 态  能

地 改变 监 控 的参 数 、 阈值 , 效地 减 少 通 信负 载 。 有  
文 中用实 验 评 价 了 P r n原 型 实 现 的 性 能 , ef Mo 实 

验结 果表 明它是 一个 轻量 级 、 高效 的监控 工具 。  
参考 文献 :  
[ ] G r ,M osl   A m too g  r e c o n   1 agS or   V.   ehdl y o  t t nad eA o f dei
0   5 0 0   l0 0  0   l5 0   0   20 0  0   25 0  0 

et ai  f ow r g g[ . rco9hItSm  sm t no  f a ai A] Po f t n y — i o st e n   l ps m o o w eR lblyE g er g C . ae- oi  nSf a   ei it ni e n [ ] P dr u tr a i  n i  
br on:I EE C mp t rS cey 9 8 8 E   o u e  o it ,1 9 .2 2—2 2  9 .

时 间 间 隔/ s  

图 5 采 集 的 服 务 器 上 物 理 内存 使 用 的 时 间序 列   

采用 类似 的方法 分析交换空 间的使用 , 6显  图
示 了监控 时间内节点 1 闲交换空 间的变 化情况 。 空   系统当前 空 闲的交 换 空 间大小 为 8 3 3 M 若 假  2 .  B,

[ ] Stl M,Mi i   .Spr n  ihsedc s 2  oi   te n c R ue nh mo :A hg—pe l — u  t   oi r gss m [ .Po    E  nl ofr e m n o n yt r ti e A] rco I EIt C n - f E   e  ec nCutr o p t g[ ] hcg : E EC m   neo ls   m ui C .C iao I E  o — eC n
p e o it utrS c ey,2 02. 3 — 4   0 9 6.

设 警戒值 为 5  , 153 7h后 达 到预 警 值 。 0MB 则  2 .    通 过上述方式 就获 取 了单个 计 算节 点上 系统资 源  到达警戒值 的预测 时间 , 再通过 比较可 以确定该 计  算 节点的关键性计算 资源 , 可为系统 管理 和资  从而 源分 配提供决策依 据 。  

[ ] A aw aS P e aae  K n  , t .R suc— 3 gr a   , ol bur l l C, ogJ e a eo r     1 e
a a e sra   n a e n   t  h   u tmia l  p o   w r  te m ma g me twi te c so z be d rc h

ds btdm n o n  eh i s[ .Poedns ir ue  oi r g m ca s t i ti n m A] rceig 
o  h  1 t I EE n e ai n l y o i m n ft e   h E  I t r t a S mp su  o  Hih 2 n o g 

Pr r ac  ir ue o p n C] e om neDs b t C m  ̄ig[ .Wahnt : f t i d si o   gn
I EEE  mp e   o it Co utr S cey,20 3. 25 —25   0 0 9.

[ ] 查礼 , 4 徐志伟 , 国璋 , 林 等.基于 L A D P的 网格监控 
系统 [ ] J .计 算 机研 究 与发 展 ,0 2 3 8 :3   20 ,9( ) 90


93   6.

[ ] X   i ,Y u J g i  egu   er w vl   5 u J n o i ,Lu F ny .A n u ̄一aee a n t bsdm to o g  r ow r g g o csn A] ae  ehdly f   f a ai   r at g[ . o o s t e n fe i  
P o e dn s o   n e ain l C n e e c   n S se , r c e i g   I t r t a  o rn e o   y t ms  f n o f

M nadC brec C .H w i:IE   o ptr a n   ye t s[ ] a ai E E C m ue  n i
图 6 采 集 的 服 务 器 上 空 闲 交 换 空 间的 时 间序 列 
So i t cey.2 05. 5 —6   0 9 4.


搜索更多“基于Linux的计算系统性能监控”

网站地图

All rights reserved Powered by 伤城文章网 5xts.com

copyright ©right 2010-2021。
伤城文章网内容来自网络,如有侵犯请联系客服。zhit325@126.com