博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
falcon 数据丢失处理方法参考
阅读量:5244 次
发布时间:2019-06-14

本文共 790 字,大约阅读时间需要 2 分钟。

背景:使用 netstat -ano | grep ESTABLISH | grep 11883 监控 send_Q 和 recv_Q 的值,由于单次推送数据量在1w条以上,导致falcon-agent处理不过来,造成数据丢失,图形断点.

1,为什么 falcon 图形会断点?

有如下两条原因:

  • tcp 连接断开,导致当前监控点无数值。
  • 数据丢失,空白点位时间段数据未上传。

2,验证数据丢失

  • 机器上找一个长连接进行监控,并用脚本打点到日志文件,与 falcon 图形比对丢失点连接是否存在。经过实际验证,发现数据确实是 丢失 。
    991917-20190902110005745-1111756566.png
  • test.sh
    991917-20190902110132870-1108676506.png
  • 结果:
    991917-20190902110157310-236914119.png

3,为什么数据会丢失?

  • 因为我们的连接数在 5k~1w 之间,
    991917-20190902110233022-702364277.png
  • 每分钟取值,并打两个指标上去,
    991917-20190902110305767-1194929416.png
  • 也就是每分钟我们会推送 1w~2w 条数据到 falcon,

  • 单线程执行总花费时间 37s 左右,

  • 多线程执行总花费时间为 0s

一开始我们怀疑是单线程执行慢的原因,担心数据未完成插入,被丢弃,所以采用了拉长推送时间,改为每2/3/5分钟尝试,结果都是失败。

后来尝试改为多线程,但是问题依旧,后来经过讨论以及请教其它同事,怀疑是不是因为短时间内推送数据过多(根据同事提供历史单次推送在2000条,没有数据丢失问题),导致 falcon-agent 处理不过来,所以丢弃了部分数据。

于是在原基础上,对数据推送进行切割,分批次推送(500/List)+ 延时(20ms,避免多进程执行过快),控制数据推送总花费时间在 15s 以内,完美解决了此次数据丢失问题。

991917-20190902110335138-408988991.png
991917-20190902110348666-1825137034.png
991917-20190902110407789-1077415829.png

总结

原因: 短时间内推送数据量过大

解决办法: 分批次推送数据 + 延时

补充知识:

1⃣️send_Q与recv_Q代表什么?

2⃣️什么是tcp三次握手?

转载于:https://www.cnblogs.com/jonnyan/p/11445389.html

你可能感兴趣的文章
C# 之 提高WebService性能大数据量网络传输处理
查看>>
md5sum命令详解
查看>>
[bzoj1004] [HNOI2008] Cards
查看>>
原生HttpClient详细使用示例
查看>>
几道面试题
查看>>
Factory Design Pattern
查看>>
python中贪婪与非贪婪
查看>>
guava API整理
查看>>
无锁编程笔记
查看>>
jquery mobile
查看>>
如何在vue单页应用中使用百度地图
查看>>
Springboot使用步骤
查看>>
Spring属性注入
查看>>
Springboot-配置文件
查看>>
Springboot-日志框架
查看>>
P1192-台阶问题
查看>>
一、使用pip安装Python包
查看>>
spring与quartz整合
查看>>
Kattis之旅——Eight Queens
查看>>
3.PHP 教程_PHP 语法
查看>>