Nginx--upstream健康检查

nginx 判断节点失效状态：

　Nginx 默认判断失败节点状态以connect refuse和time out状态为准，不以HTTP错误状态进⾏判断失败，因为HTTP只要能返回状态说明该节点还可以正常连接，所以nginx判断其还是存活状态；

　除⾮添加了proxy_next_upstream指令设置对404、502、503、504、500和time out等错误进⾏转到备机处理，

　在next_upstream过程中，会对fails进⾏累加，如果备⽤机处理还是错误则直接返回错误信息（但404不进⾏记录到错误数，如果不配置错误状态也不对其进⾏错误状态记录）

　综述，nginx记录错误数量只记录timeout 、connect refuse、502、500、503、504这6种状态，timeout和connect refuse是永远被记录错误状态，

⽽502、500、503、504只有在配置proxy_next_upstream后nginx才会记录这4种HTTP错误到fails中，当fails⼤于等于max_fails时，则该节点失效

nginx 处理节点失效和恢复的触发条件：

　nginx可以通过设置max_fails（最⼤尝试失败次数）和fail_timeout（失效时间，在到达最⼤尝试失败次数后，在fail_timeout的时间范围内节点被置为失效，除⾮所有节点都失效，否则该时间内，节点不进⾏恢复）对节点失败的尝试次数和失效时间进⾏设置，

　当超过最⼤尝试次数或失效时间未超过配置失效时间，则nginx会对节点状会置为失效状态，nginx不对该后端进⾏连接，直到超过失效时间或者所有节点都失效后，该节点重新置为有效，重新探测；

所有节点失效后nginx将重新恢复所有节点进⾏探测：

格致中学

　如果探测所有节点均失效，备机也为失效时，那么nginx会对所有节点恢复为有效，重新尝试探测有效节点，如果探测到有效节点则返回正确节点内容，如果还是全部错误，那么继续探测下去，

　当没有正确信息时，节点失效时默认返回状态为502，但是下次访问节点时会继续探测正确节点，直到到正确的为⽌。

⼀、ngx_http_proxy_module模块和ngx_http_upstream_module模块（⾃带）

　Nginx 在 upstream 模块中的默认检测机制：通过⽤户的真实请求去检查被代理服务器的可⽤性，这是⼀种被动的检测机制，通过 ngx_http_upstream_module 模块中 server 指令的指令值参数 max_fails 及 fail_timeout 实现对被代理服务器的检测和熔断。

upstream test1 {

#10s内出现3次错误，该服务器将被熔断10s

server 192.168.134.154:80 max_fails=3 fails_timeout=10s;

server 192.168.134.153:80 max_fails=3 fails_timeout=10s;

server 192.168.134.152:80 max_fails=3 fails_timeout=10s;

}

server {

proxy_connect_timeout 5s; #与被代理服务器建⽴连接的超时时间

2012山东文综proxy_read_timeout 10s; 　#获取被代理服务器的响应最⼤超时时间，当与被代理服务器通信出现指令值指定的情况时，认为被代理出错，并将请求转发给上游服务器组中的下⼀个可⽤服务器 proxy_next_upstream http_502 http_504 http_404 error timeout invalid_header;

proxy_next_upstream_teies 3; #转发请求最⼤次数

proxy_next_upstream_timeout 10s;　#总尝试超时时间

max_fails： 10s 内 Nginx 分配给当前服务器的请求失败次数累加值，每 10s 会重置为 0

fail_timeout：既是失败计数的最⼤时间，⼜是服务器被置为失败状态的熔断时间，超过这个时间将再次被分配

指令 proxy_connect_timeout 或 proxy_read_timeout 为超时状态时，都会触发 proxy_next_upstream 的 timeout 条件

proxy_next_upstream：Nginx 提⾼请求成功率的机制，当被代理服务器返回错误并符合 proxy_next_upstream 指令值设置的条件时，将尝试转发给下⼀个可⽤的被代理服务器

　Nginx 被动检测机制的优点是不需要增加额外进程进⾏健康检测，但⽤该⽅法检测是不准确的。如当响应超时时，有可能是被代理服务器故障，也可能是业务响应慢引起的。

　如果是被代理服务器故障，那么 Nginx 仍会在⼀定时间内将客户端的请求转发给该服务器，⽤以判断其是否恢复。

⼆、nginx_upstream_check_module模块（淘宝技术团队开发）

检测后⽅realserver的健康状态，如果后端服务器不可⽤，则会将其踢出upstream，所有的请求不转发到这台服务器；当恢复正常时，将其加⼊upstream

upstream test1 {

server 192.168.134.154:80;

server 192.168.134.153:80;

server 192.168.134.152:80;

#每隔5秒检测⼀次，请求2次正常则标记 realserver状态为up，如果检测5次都失败，则标记 realserver的状态为down，超时时间为1秒，使⽤http协议。

check interval=5000 rise=2 fall=5 timeout=1000 type=http;

check_http_send"HEAD / HTTP/1.0\r\n\r\n";

check_http_expect_alive http_2xx http_3xx;

}

Default: 如果没有配置参数，默认值是：interval=30000 fall=5 rise=2 timeout=1000 default_down=true type=tcp

萨纳克Context: upstream

参数说明：

参数描述

interval向后端发送的健康检查包的间隔水蛭胶囊

fall(fall_count)如果连续失败次数达到fall_count，服务器就被认为是down

rise(rise_count)如果连续成功次数达到rise_count，服务器就被认为是up

timeout后端健康请求的超时时间，单位毫秒

default_down设定初始时服务器的状态，如果是true，就说明默认是down的，如果是false，就是up的。

默认值是true，也就是⼀开始服务器认为是不可⽤，要等健康检查包达到⼀定成功次数以后才会被认为是健康的

type健康检查包的类型，现在⽀持以下多种类型：

tcp：简单的tcp连接，如果连接成功，就说明后端正常

ssl_hello：发送⼀个初始的SSL hello包并接受服务器的SSL hello包

http：发送HTTP请求，通过后端的回复包的状态来判断后端是否存活

mysql: 向mysql服务器连接，通过接收服务器的greeting包来判断后端是否存活

ajp：向后端发送AJP协议的Cping包，通过接收Cpong包来判断后端是否存活

port: 指定后端服务器的检查端⼝。可以指定不同于真实服务的后端服务器的端⼝，默认是0，表⽰跟后端server提供真实服务的端⼝⼀样

Syntax: check_http_send http_packet

Default: "GET / HTTP/1.0\r\n\r\n"

Context: upstream

#该指令可以配置http健康检查包发送的请求内容。为了减少传输数据量，推荐采⽤"HEAD"⽅法。

欧洲见闻录#当采⽤长连接进⾏健康检查时，需在该指令中添加keep-alive请求头，如："HEAD / HTTP/1.1\r\nConnection: keep-alive\r\n\r\n"。

#同时，在采⽤"GET"⽅法的情况下，请求uri的size不宜过⼤，确保可以在1个interval内传输完成，否则会被健康检查模块视为后端服务器或⽹络异常。

Syntax: check_http_expect_alive [ http_2xx | http_3xx | http_4xx | http_5xx ]

Default: http_2xx | http_3xx

Context: upstream

#该指令指定HTTP回复的成功状态，默认认为2XX和3XX的状态是健康的。

Syntax: check_shm_size size

Default: 1M

Context: http

#所有的后端服务器健康检查状态都存于共享内存中，该指令可以设置共享内存的⼤⼩。默认是1M，如果有1千台以上的服务器并在配置的时候出现了错误，就可能需要扩⼤该内存的⼤⼩。

Syntax: check_keepalive_requests request_num

Default: 1

劳合乔治Context: upstream

#该指令可以配置⼀个连接发送的请求数，其默认值为1，表⽰Tengine完成1次请求后即关闭连接。

Syntax: check_status [html|csv|json]

Default: check_status html

Context: location

#显⽰服务器的健康状态页⾯。该指令需要在http块中配置。在Tengine-1.4.0以后，可以配置显⽰页⾯的格式。⽀持的格式有: html、csv、 json。默认类型是html。

　配置时需注意：

1）type：由于默认的type是tcp类型，因此假设服务启动，不管是否初始化完毕，它的端⼝都会起来，所以此时前段负载均衡器为认为该服务已经可⽤，其实是不可⽤状态。

2）check_http_send：默认值是"GET / HTTP/1.0\r\n\r\n" 假设应⽤是通过ip/name访问的，那么这⾥check_http_send值就需要更改为 "GET /name

HTTP/1.0\r\n\r\n"才可以。

针对采⽤长连接进⾏检查的，增加 keep-alive请求头，即"HEAD /name HTTP/1.1\r\nConnection: keep-alive\r\n\r\n"。

如果后端的tomcat是基于域名的多虚拟机，此时需要通过 check_http_send定义host，不然每次访问都是失败，范例：check_http_send "GET /test

HTTP/1.0\r\n HOST wwwnginx\r\n\r\n";

三、ngx_http_healthcheck_module

　官⽅在早期的时候提供的⽤来进⾏nginx后端节点的健康检查，nginx_upstream_check_module模块就是参照该模块的设计理念进⾏开发的，因此在使⽤和效果上都⼤同⼩异。

　ngx_http_healthcheck_module模块仅仅⽀持nginx的1.0.0版本，1.1.0版本以后都不⽀持了，这⾥不做阐述。

本文发布于:2024-09-23 08:23:33，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/181781.html

上一篇：SDN开发实战（1）－透明HTTP代理[Openflow+floodlight]

下一篇：androidstudio配置HTTPproxy

标签：服务器节点状态请求

留言与评论（共有 0 条评论）