通过数据分析进行问题排查的case
前几天帮忙排查一个问题,简单记录一下。
背景
答题服务,近期用户答题率(答题人数/发题时的在线人数)有明显下降,需要分析这部分用户没有答题的原因。
初步排查
- 从服务端监控来看,客户端尝试连接、断连、超时比例都没有明显异常,整体也没有容量上的问题。
- 从没有答题的用户分析,没有明显的特征。
- 从没有答题的设备分析,大部分集中在IOS客户端。
- 从没有答题的设备网络分析,没有明显的地域或ISP分布。
进一步排查
在初步排查基本排除了服务端整体性能问题之后,接下来的问题是:这一部分IOS用户为什么在房间里但是没有答题?
可能的解释有几种:
- 发题的时候用户在线,但是没有弹出题目
- 发题的时候用户在线,弹出题目了,但是没有选择答案
- 发题的时候用户在线,弹出题目、选择答案了,但是没有提交成功
- 发题的时候用户其实不在线,统计有问题