存储服务器及存储BOX 设计及测试要点

网络通讯及安全
本栏目责任编辑:代
存储服务器及存储BOX 设计测试要点
谭世伟,张翔宇,陈思睿,丁兆鹏
(浪潮电子信息产业股份有限公司,山东济南250000)
摘要:在后互联网时代,计算是生产力,数据是生产资料,数据的存储与应用越来越引起关注。针对热
数据采用NVME 协
议的SSD 用于快速存储与计算,针对冷数据采用SATA 或者SAS 形式的机械硬盘作为存储数据与应用。相应的为了满足当前对数据量的需求,大容量的存储服务器,存储Jbod ,存储Jbof 越来越应用到互联网行业中。存储Jbof 作为热数据进行快速存储,存储Jbod 作为冷数据为大容量数据进行长期存储,形成数据存储保护的硬件基石。存储服务器,存储Jbod 及存储Jbof 因为满足了大容量数据的存储需求,越来越得到行业的大力发展。本文章将通过结合实际的应用场景提出存储服务器,存储Jbod 及存储Jbof 的设计及测试要点.关键词:存储服务器;设计要点;存储Jbod ;存储Jbof;测试验证中图分类号:TP311
文献标识码:A
文章编号:1009-3044(2020)36-0047-03
开放科学(资源服务)标识码(OSID ):
Storage Jbod Test Specification
TAN Shi-wei,ZHANG Xiang-yu,CHEN Si-rui,DING Zhao-peng
(Inspur Electronic Information Industry Co.,Ltd.,Jinan 250000,China)
Abstract:In the post-Internet era,computing is compression,data is production material,and data storage and application are at⁃tracting more and more attention.SSDs using NVME protocol for hot data are used for fast storage and calculations,and mechanical hard drives in the form of SATA or SAS are used for cold data to store data and applications.Correspondingly,in order to meet the current demand for data volume,large-capacity storage servers,storage Jbod,and storage Jbof are increasingly used in the Internet industry.Storage Jbof is used as hot data for fast storage,storage Jbod is used as a storage server,and storage Jbod and storage Jbof are more and more vigorously developed in the industry because they meet the storage needs of large-capacity data.The actual ap⁃plication scenario proposes the design and test points of storage server,storage Jbod and storage Jbof.Key words:storage server ;design points;store jbod;store jbof;test verification
后互联网时代,AI 以及边缘计算崛起,但是计算是生产力需要大量的数据作为分析的源泉。数据的发掘分析成就了互联网时代的兴盛,而数据量成指数型规模化增长,带来了数据存储的大量需求。用于数据存储的存储服务器,存储Jbob ,存储Jbof 等硬件架构,为数据存储提供了PB 级别的数据存储能力。存储Jbod 以机械硬盘为主,重点用于冷数据存储;存储Jbof 以SSD 以及最新的nvme SSD 为主,以近内存的速度提供快速的数据存储与应用。文中将存储Jbod 和存储Jbof 全部归为存储BOX 。鉴于存储BOX 可以改配成任何形式的机头,使其应用场景非常广泛。只要机头(服务器)拥有pcie 插
槽,支持相应的SAS 卡or RAID 卡or 100G 网卡,均可以改配连接后端的存储BOX 。存储服务器兼具计算节点和存储节点,存储BOX 纯数据存储节点。本文重点探讨研究存储服务器,存储BOX 设计以及测试验收要点。
名词解释:1)存储BOX :指存储Jbod 与存储Jbof 的总称。
2)JBOD:Just a Bunch Of Disks ,磁盘簇,是在一个底板上
安装的带有多个磁盘驱动器的存储设备,SAS or SATA 机械硬盘柜。
3)JBOF :Just a Bunch Of Flash ,非机械硬盘组成的存储柜,SAS-SSD SATA-SSD NVME-SSD 等非机械硬盘组成的存储柜。
4)存储服务器以偏重数据存储为重点,支持多硬盘大存储容量的服务器,对计算能力要求不高,可支持单CPU ,双M.2等简单服务器配置。
1存储服务器及存储BOX 测试常见故障
分布式存储中存储服务器,存储BOX ,在研发设计和测试中经常遇到如下常见设计以及测试故障:
1)掉盘;2)性能差;
3)关键核心部件没有温度监控;
4)Jbof 与机头SAS 接口连线顺着插和反着插均可用,外观
收稿日期:2020-09-21
作者简介:谭世伟,中级工程师,浪潮电子信息产业股份有限公司,负责存储操作系统,存储服务器,存储Jbod 及存储Jbof 研发测试。
47
本栏目责任编辑:代影
网络通讯及安全
Computer Knowledge and Technology 电脑知识与技术第16卷第36期(2020年12月)
指示灯无差别均显示正常;www.hnnn
5)插拔Jbod 后,链路状态显示正常,但是跑出来的性能极差;
6)BOX 不支持先开机头再开BOX ;7)硬盘单体没有efruse 保护机制;8)硬盘背板以及硬盘无过流保护;9)硬盘背板,PDB 供电板等设置OCP 点过低;10)高速信号链路余量不足等;11)一些升级需要AC 断电才生效;
12)存储服务器系统盘不支持冗余设计等。
以上种种问题导致耽误大量的人力和时间去分析定位根因。测试中测试前准备工作不足,设计工作做的不充分,导致实际测试工作中,各种掉盘问题,掉带宽问题等等,研发定位分析问题测试复现问题等超过1个月才完成问题定位。
存储服务器,存储BOX ,因为缺少设计以及测试规范,缺少合理的测试流程和测试手法,导致投入大量人力和时间去分析定位问题,项目一直延期。
2存储服务器及存储BOX 设计及测试要点
现针对存储服务器及存储BOX ,提出如下实际设计与测试总结的要点,方便后期研发设计以及测试人员参考。
【高速信号链路】高速信号链路和EXPANDER or SWITCH 参数设计与测试要点a )各存储部件与PCIE 等高速信号链路,必须每条高速信号链路单独调优;
b )所有高速信号链路的参数设置确保Margin 充足,满足30%以上;
【关键信号】
a )GPIO 信号的处理方式以及默认状态与硬件,BIOS ,BMC ,EXPANDER or SWITCH 等符合设计规范
要求
b )散热信号相关的软件方案处理逻辑符合规范要求
【异常状态散热策略】
BMC 异常时候,散热调速策略需要设置成CPLD 全部接管,保证不能发生过热宕机情况;
【OCP 余量】
PDB 板,硬盘背板等OCP 设置余量符合标准,满足50%以上;
【PSU 】
电源符合浪潮白盒引入规范
【BIOS/CPLD 】
BIOS/CPLD 关键软硬件接口参数符合浪潮规范
【在线升级】
产品里所有固件,都能支持在线升级,满足DC 重启即可生效,不需要AC 重启;
【温度传感器】
核心部件M.2等均有温度传感器并实时监控
冷库蒸发器
【器件供应】
PCBA 独家器件(非业界独家)需要second source 确保量产后不频繁EC 切换变更;
存储服务器及存储BOX 测试要点[4]:
实际中应以硬盘采用的芯片决定Server 使用的SAS 卡or RAID 卡的型号。比如硬盘使用的Expander 芯片是LSI 的,Serv⁃er 端的SAS 卡or RAID 卡必须也是LSI 的;硬盘端采用的Ex⁃pander 芯片是PMC 的,Server 端的SAS 卡or RAID 卡也必须是PMC 的卡子。
1)如果Server 主板BMC 不支持SAS 卡or RAID 卡的监控功能,SAS 卡or RAID 卡就配置成不支持监控功能的NVDATA 版本。
2)一般硬盘数量超过40块,SAS 卡or RAID 卡NVDATA 配置参数需要设置成不扫描后端硬盘的配置参数;一般硬盘数量过多将导致开机等待时间过长,bios 需要更长的检测时间等。
3)存储服务器在测试之前,使用SAS 卡or RAID 卡芯片厂商提供的工具检测一下误码率,防止没有检查误码率的情况下
进行开展大量测试;一般Expander or Switch 芯片厂商均会提供
芯片的治具来能够直接查看误码率和带宽。
4)存储服务器or 存储BOX 测试之前,需要对测试硬盘进行选型,必须选用能够支持的功耗最大的盘进行测试,比如空气盘,比如双磁臂硬盘,比如SAS SSD 等;
5)在测试之前,对最大功耗的硬盘进行压测时,认真参考此款硬盘的功耗说明书,检查一下硬盘在哪种模式下功耗最高,大多数机械硬盘,在随机读写时功耗最高,测试脚本需要优先使用此模式进行测试。如下两种模式是压测中功耗比较大的配置参数:随机写4K 小块(Random RW 4KB Qd=8)(random read 4K16Q)。
6)在进行满配最大功耗硬盘进行压测时,要进行拔掉一块PSU 线缆等异常测试。单PSU 情况下,PSU 输出压降会变大,故障率会比较高。此时实时查看单PSU 供电情况下压测是否存在硬盘或者硬盘背板电压降低的告警和故障。
7)存储服务器测试,重点关注硬盘背板OCP 点,PDB 供电板最大输出功率等;需要进行全链路压降测试。
8)针对通过线缆给硬盘背板供电的,重点关注供电线缆的压降情况。
9)需要进行所有的硬盘由sleep 到wake 最大整机输入功耗测试,此种情况下功耗最高。
3存储服务器及存储BOX 测试报告及评审要点
针对存储服务器及存储BOX 测试验收标准重点关注如下测试报告验收项。
有源
无源
UPI/PCIE/
SAS/SATA/USB/IEEE/
OIF/CLK 等高速信号UPI/PCIE/
SAS/SATA/USB/IEEE/
OIF/CLK 等高速信号有源仿真报告:体现在worse-case 情况下的仿真结果必须预留30%的
margin 裕量;
有源仿真报告:需要体现crosstalk 和PVT 的影响。
针对redriver (repeater )场景,EQ 参数设置合适并有厂家确认邮件,确保redriver 工作在线性范围内;报告需体现:repeater 链路端到端链路统计
表格(prechannel 数据,repeater 参数设置,post channel 数据);高速链路channel 设计die to die 报告:必须满足Spec 要求(UPI 满足Intel 要求,PCIE 满足PCISIG 要求,SAS 满足SAS Spec 要求,SATA/
USB 满足Spec 要求,网口满足IEEE 和OIF 要求);设计时要考虑温湿度影响,同时margin 余量2dB~3dB 以上(加工偏差和PVT 影响),有实际
的测试验证报告;如果在现阶段有大量发货数据支撑且无质量问题
的,可适当放宽标准;
高速channel 的阻抗不连续点(BGA footprint/AC cap Fan-out/connector footprint/Via/Goldfinger 等)报告:需要体现无源优化设计(仅5Gbps 以上考虑),要求单点无源优化的差模回损-20dB@)0~1.5F(奈奎斯特
频率)
链路所允许的最大stub 长度需满足L<0.3/BR[Gbps]inch
Chip 到connector 距离TX 方向不能小于2inch ,chip to chip 的最短链路
不能小于3inch ;
高速信号的走线,线宽至少3.5mil 以上,建议4.5mil 以上以确保可加
工性和链路损耗的要求;
高速信号阻抗控制要满足+/-10%,同时要设计阻抗coupon 方便测量;
旗袍花扣
高速信号Tx 和Rx 信号尽量不相邻同层布线,如果因为某种原因必须
同层Tx 和Rx 信号走线间距要大于7H (H 到参考平面距离)高速差分对内的skew 按2mil 控制,同时带有电容或电阻电感差分对要分开等长设计(避免定义Xnet 统一补偿),补偿是要按照就近原则
补偿,同时补偿时不能改变走线间距
路轨两用消防车
高速信号不允许跨分割优先参考GND ,必须跨分割时,需要满足距离
参考平面距离>3H;
48
网络通讯及安全
本栏目责任编辑:代
Computer Knowledge and Technology 电脑知识与技术
第16卷第36期(2020年12月)
连接器和ca⁃
ble
测试要求
UPI/PCIE/
SAS/SATA/USB/IEEE/
OIF/CLK 等
设计高速信
号ALL
高速信号距离12V 网络(过孔)/DrMOS 的phase 点网络(过孔)/DrMOS High Side MOS 网络(过孔)等高噪声via 建议在50mil 以上(CLK
信号100mil 以上);
1.0mm Pitch BGA pinfield 区域高速信号穿双线时,要做到TX 走线不
穿RX 信号的过孔;同时禁止走线在反焊盘内做差分对内的相位补偿;时钟信号布线长度需要spec 要求,超出设计时需要提供相应测试数
据,同时时钟信号要参考临近的GND 且不允许跨分割;高速板材选择时,靠近1oz 和2oz 铜箔侧禁止使用厚玻布(如7628、1056等)和扁平玻布(如1067),避免PCB 压合时流胶不足导致分层。扁平玻布如1035、1037、1067、1078、1086等,普通玻布如106、
1080、3313、2116、7628等。
高速信号并行布线长度《2inch ,超过2inch 时,需采用fiber wave 布线
方式。
针对标准接口CEM 、U.2、SAS 和SATA 等接口选择业界通用的连接器,不允许独家,同时连接器的电气特性指标要满足spec 要求。网络节点
高速连接器,定义信号时,注意TX ,RX 在连接器上的分布,避免TX/RX
混在一起(避免cross talk )。
高速连接器的demating 设计12Gbps 以下建议按1.5mm ,16Gbps 以上
按1.2mm ,25Gbps 以上按0.8mm 设计。
高速cable 中sideband 信号如果要定义差分,一定明确pinmap 设计并
落入cable 规格书中。
全链路对cable 设计有明确要求的要落入规格书中且明确公差要求
(例如要求ILmax 《-6+/-1dB /m@8GHZ )。数字重阵
所有高速信号在整个研发阶段,需要全部覆盖测试并确保margin
足够。
所有高速信号在研发测试阶段,链路上AER error 要满足0Error count
要求。
低速GPIO,HW Strap 信号检测,thermaltrip ,Hot ,error ,present/detect 这类信号,以及硬件组合逻辑电路里,自己设计的RESET ,enable/dis⁃
able 信号要覆盖测试。
I2C/SMBUS/LPC/SPI 等多负载信号提前仿真评估确保匹配符合设计要
求,同时测试要覆盖的所有receiver 端。
4存储服务器及存储BOX 硬件变更测试要点
现针对存储服务器及存储BOX SIT 测试验证验收,提出如
下实际测试总结的测试策略和大纲,方便后期测试人员参考:
1)异常场景测试;2)最大化满配配置测试;3)核心部件温度传感器监控温度测试;4)硬盘单体efruse 保护机制测试;
5)AC DC Reboot 测试;
6)BOX 与机头插拔测试;7)BOX 与机头插拔测试后压力测试;8)BOX 与机头插拔测试后性能测试并对比;9)客户实际应用场景模拟测试;10)设计需求验收测试;11)最大化配置下压力稳定性长期测试;12)可维护部件热插拔测试以及插拔寿命测试;13)硬盘热插拔测试并插拔后速率检查;14)性能测试以及性能瓶颈点分析验收;15)可维护部件更换时间测试;16)结构丝印验收测试;17)所有硬盘由sleep 到wake 时,整机最大输入功耗测试等。
5结论
存储服务器、存储Jbod 及存储Jbof ,随着数据量的剧增,将越来越大量地应用到市场端。所以存储服务器、存储Jbod 及存储Jbof 的长期稳定性及产品质量要求也越来越严苛,这就对存储服务器设计以及测试验收等研发阶段提出更高的要求和技术能力提升。产品质量是企业的生命线,数据安全关乎企业的生存,所以存储服务器及存储BOX 设计及测试要点需要不断更新完善。
参考文献:
[1]田洪元.高密度存储服务器可靠性设计和实现方法研究[D].北京:中国科学院大学,2017.
[2]刘建峰.基于FPGA 的SAS 控制器设计与实现[D].武汉:华中科技大学,2008.
[3]沙超,尤扬,胡长军,等.高密度存储服务器热设计[J].计算机工程与科学,2015,37(12):2228-2232.
[4]谭世伟,丁兆鹏,陈思睿.存储Jbod 测试规范[J].电脑知识与技术,2020,16(15):260-261.
[5]朱晨松.冷存储系统关键模块设计与实现[D].北京:北京邮电大学,2019.
【通联编辑:梁书】
(上接第46页)的意识,被动服务应摒除。在与师生交流中,了解社会,掌握信息,明确师生对图书馆服务的要求,这样管理员就能够为读者用户提供主动的协助,满足他们潜在的需求,更好的服务广大师生,无论何种方式,都能够帮助读者和用户,使他们感受到图书馆的人性化服务。图书馆员采用与读者联系的公共活动中促进师生对图书馆的认识,来争取师生们的理解和支持。
4结语
网络阅读已经成为我们日常生活中不可或缺的一部分。
网络阅读的盛行使高校图书馆对文献信息缺少了可控性,网络阅读的迅速发展和普遍应用,给人类的社会生活带来了革命性的变化。但是,网络阅读也对全民阅读工作的推进,带来了机遇和挑战并存的局面。[3]网络阅读的缺陷不容忽视,其在提供大量信息的同时也影响着部分大学生的价值观念。作为阅读
的助推手,高校图书馆要发挥优势采取正确的措施,加强正确
的阅读引导,帮助大学生树立较高的阅读能力,分辨信息能力、批判性思维的阅读能力,并同大学生沟通交流,了解大学生心理需求,从而激发学生的阅读兴趣,提升学生创新思维,为国家培养合格人才做出贡献。
参考文献:
[1]王素芳.网络阅读的发展现状和前景探析[J].图书与情报,2004(3):91-93.
[2]毛汉玉,吴慧华.大学生网络阅读发展趋势与导读创新[J].科技情报开发与经济,2010(36):29-30.[3]田冬锦.“互联网+”时代下大学生作品阅读困境与思考[J].现代语文(教学研究版),2017(1):25-26.
【通联编辑:唐一东】
49

本文发布于:2024-09-21 22:45:40,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/267268.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:测试   硬盘   设计   信号   需要
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议