需求

在折腾nginx日志分析、nginx实时监控的过程中
遇到最大的问题就是日志格式解析起来特别费力



调查

通过研究nginx日志参数含义,决定用json格式,重新配置一下nginx日志生成格式和参数字段。
参考地址:https://www.cnblogs.com/wajika/p/6426270.html

  1. $args #请求中的参数值
  2. $query_string #同 $args
  3. $arg_NAME #GET请求中NAME的值
  4. $is_args #如果请求中有参数,值为"?",否则为空字符串
  5. $uri #请求中的当前URI(不带请求参数,参数位于$args),可以不同于浏览器传递的$request_uri的值,它可以通过内部重定向,或者使用index指令进行修改,$uri不包含主机名,如"/foo/bar.html"。
  6. $document_uri #同 $uri
  7. $document_root #当前请求的文档根目录或别名
  8. $host #优先级:HTTP请求行的主机名>"HOST"请求头字段>符合请求的服务器名.请求中的主机头字段,如果请求中的主机头不可用,则为服务器处理请求的服务器名称
  9. $hostname #主机名
  10. $https #如果开启了SSL安全模式,值为"on",否则为空字符串。
  11. $binary_remote_addr #客户端地址的二进制形式,固定长度为4个字节
  12. $body_bytes_sent #传输给客户端的字节数,响应头不计算在内;这个变量和Apache的mod_log_config模块中的"%B"参数保持兼容
  13. $bytes_sent #传输给客户端的字节数
  14. $connection #TCP连接的序列号
  15. $connection_requests #TCP连接当前的请求数量
  16. $content_length #"Content-Length" 请求头字段
  17. $content_type #"Content-Type" 请求头字段
  18. $cookie_name #cookie名称
  19. $limit_rate #用于设置响应的速度限制
  20. $msec #当前的Unix时间戳
  21. $nginx_version #nginx版本
  22. $pid #工作进程的PID
  23. $pipe #如果请求来自管道通信,值为"p",否则为"."
  24. $proxy_protocol_addr #获取代理访问服务器的客户端地址,如果是直接访问,该值为空字符串
  25. $realpath_root #当前请求的文档根目录或别名的真实路径,会将所有符号连接转换为真实路径
  26. $remote_addr #客户端地址
  27. $remote_port #客户端端口
  28. $remote_user #用于HTTP基础认证服务的用户名
  29. $request #代表客户端的请求地址
  30. $request_body #客户端的请求主体:此变量可在location中使用,将请求主体通过proxy_pass,fastcgi_pass,uwsgi_pass和scgi_pass传递给下一级的代理服务器
  31. $request_body_file #将客户端请求主体保存在临时文件中。文件处理结束后,此文件需删除。如果需要之一开启此功能,需要设置client_body_in_file_only。如果将次文件传 递给后端的代理服务器,需要禁用request body,即设置proxy_pass_request_body off,fastcgi_pass_request_body off,uwsgi_pass_request_body off,or scgi_pass_request_body off
  32. $request_completion #如果请求成功,值为"OK",如果请求未完成或者请求不是一个范围请求的最后一部分,则为空
  33. $request_filename #当前连接请求的文件路径,由root或alias指令与URI请求生成
  34. $request_length #请求的长度 (包括请求的地址,http请求头和请求主体)
  35. $request_method #HTTP请求方法,通常为"GET"或"POST"
  36. $request_time #处理客户端请求使用的时间,单位为秒,精度毫秒; 从读入客户端的第一个字节开始,直到把最后一个字符发送给客户端后进行日志写入为止。
  37. $request_uri #这个变量等于包含一些客户端请求参数的原始URI,它无法修改,请查看$uri更改或重写URI,不包含主机名,例如:"/cnphp/test.php?arg=freemouse"
  38. $scheme #请求使用的Web协议,"http" 或 "https"
  39. $server_addr #服务器端地址,需要注意的是:为了避免访问linux系统内核,应将ip地址提前设置在配置文件中
  40. $server_name #服务器名
  41. $server_port #服务器端口
  42. $server_protocol #服务器的HTTP版本,通常为 "HTTP/1.0" 或 "HTTP/1.1"
  43. $status #HTTP响应代码
  44. $time_iso8601 #服务器时间的ISO 8610格式
  45. $time_local #服务器时间(LOG Format 格式)
  46. $cookie_NAME #客户端请求Header头中的cookie变量,前缀"$cookie_"加上cookie名称的变量,该变量的值即为cookie名称的值
  47. $http_NAME #匹配任意请求头字段;变量名中的后半部分NAME可以替换成任意请求头字段,如在配置文件中需要获取http请求头:"Accept-Language",$http_accept_language即可
  48. $http_cookie
  49. $http_host #请求地址,即浏览器中你输入的地址(IP或域名)
  50. $http_referer #url跳转来源,用来记录从那个页面链接访问过来的
  51. $http_user_agent #用户终端浏览器等信息
  52. $http_x_forwarded_for
  53. $sent_http_NAME #可以设置任意http响应头字段;变量名中的后半部分NAME可以替换成任意响应头字段,如需要设置响应头Content-length,$sent_http_content_length即可
  54. $sent_http_cache_control
  55. $sent_http_connection
  56. $sent_http_content_type
  57. $sent_http_keep_alive
  58. $sent_http_last_modified
  59. $sent_http_location
  60. $sent_http_transfer_encoding


修改

最后把默认的日志格式

  1. log_format main '$remote_addr - $remote_user [$time_local] "$request" '
  2. '$status $body_bytes_sent "$http_referer" '
  3. '"$http_user_agent" "$http_x_forwarded_for"';

改为

  1. log_format log_json '{"time":"$msec",'
  2. '"ip":"$remote_addr",'
  3. '"method":"$request_method",'
  4. '"url":"$request_uri",'
  5. '"status":$status,'
  6. '"bytes":$body_bytes_sent,'
  7. '"ua":"$http_user_agent",'
  8. '"ref":"$http_referer",'
  9. '"forward":"$http_x_forwarded_for",'
  10. '"up_addr":"$upstream_addr",'
  11. '"host":"$upstream_http_host",'
  12. '"resp_time":"$upstream_response_time",'
  13. '"req_time":"$request_time"'
  14. '}';

做了如下修改
1. 整体改为json格式输出,免去之后自己正则校验
2. 时间格式改时间戳
2. request拆分出了request_method和$request_uri
3. 尽量用简短的参数名,字段也只保留有用的



生效

  1. # 原版
  2. access_log /var/log/nginx/access.log main;
  3. # 改为
  4. access_log /var/log/nginx/access.log log_json;
  5. # 保存文件
  6. # 运行校验
  7. nginx -t
  8. # 重新加载
  9. nginx -s reload


效果

之前的格式

  1. 000.000.000.000 - - [26/Feb/2019:22:31:29 +0800] "POST /index.php HTTP/1.1" 301 185 "http://baidu.com/index.php" "Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1)" "-"

之后的格式

  1. {
  2. "time": "1557987129.988",
  3. "ip": "000.000.000.000",
  4. "method": "GET",
  5. "url": "/css/xxx.css",
  6. "status": 200,
  7. "bytes": 1000,
  8. "ua": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3239.132 Safari/537.36",
  9. "ref": "https://www.baidu.com/",
  10. "forward": "-",
  11. "up_addr": "-",
  12. "host": "-",
  13. "resp_time": "-",
  14. "req_time": "0.000"
  15. }


总结

相比之下,json版肯定会长一点,但重复内容隔天以后就会被压缩掉,实际增加的磁盘占用不太明显,但解析起来可以减少大量难度和时间



END

欢迎关注我的线上项目
个人博客: https://zzzmh.cn
学习笔记: https://leanote.zzzmh.cn
极简壁纸: https://bz.zzzmh.cn
极简插件: https://chrome.zzzmh.cn