最近招行网银里面退出了‘2016趣味年度账单’功能,里面可以看到各方面的花费,同时可以看到年度收入在同城如北京市的排名,比如年度收入5w,排名超过30%;收入10w,超过40%之类。
  由此,假设全市的人非常多,各行业、各岗位的相关性不大,那么招行统计的这么多数据,就可以认为服从某一个概率分布;如果我们拿到几个这样的数据,那么就可以按照此概率分布,来大概了解下全市的收入分布了。
  当然,这样的模型并不严谨,首先招行毕竟是小众银行,覆盖人群并不是大多数人群,采样有偏差;其次,数据量如果较小,那么模型容易过拟合而失真;再次,顶多体现工薪阶层的收入分布,诸多高收入人群收入多样化完全不适应。
  一般认为社会人群收入分布为金字塔型,那么我们建模其为高斯分布。
  根据北京市统计局的平均工资数据,2016平均工资为8717元,因招行统计的为入卡收入,必然已扣除社保、公积金之类,则可以计算出,平均年度税后收入为8.8w,此为高斯分布的均值u;根据几个熟人的排名数据,可以计算出高斯分布的标准差sigma=14,从而得到工薪年度税后收入分布图如下:
   
  各阶段排名的年度税后收入,换算为税前收入如下:
   
  现在可以看看,你处在哪一阶段呢?
  如果你的招行网银收入排名数据,与这个模型偏差较大,那么欢迎留言反馈,以便我更好的改进模型。