1.2 数理统计技术

数理统计博大精深,但入门并不难。只要掌握本节中介绍的描述性统计分析和统计推断的知识,你便可应对绝大部分工作。

1.2.1 描述性统计分析

描述性统计分析是每个人几乎都会使用的方法,比如新闻联播中提及的人民收入是均值,而不是每个人的收入。企业财务年报中经常提及的是年收入、利润总额,而不是每一笔交易的数据。这些平均数、总和就是统计量。描述性统计分析就是从总体数据中提炼变量的主要信息,即统计量。日常的业务分析报告就是通过标准的描述性统计分析方法完成的。做这类分析时只要明确分析的主题和可能的影响因素,即可确定可量化主题和影响因素的指标,然后根据这些指标的度量类型选择适用的统计表和统计图进行信息呈现。图1-4展现了统计表的类型和对应的柱形图。

015-01

图1-4 描述性统计分析方法

关于描述性统计分析的详细内容,大家可以阅读4.2节内容。以图1-5为例,这是某知名商业智能软件的截图,其实就是图1-4中方法的运用。比如图中“普通小学基本情况”报表就是“汇总表”的直接运用;“普通小学专任教师数”是柱形图的变体,使用博士帽的数量替代柱高;“各省份小学学校数量占比”中使用气泡的大小代表各省小学学校数量的占比情况。

016-01

图1-5 某商业智能软件的截图

剩下的难点就是理解业务和寻找数据了,这要靠多读分析报告、积累业务经验来解决。

1.2.2 统计推断与统计建模

统计推断及统计建模的含义是建立解释变量与被解释变量之间可解释的、稳定的,最好是具有因果关系的表达式。在模型运用时,将解释变量带入该表达式可以预测每个个体被解释变量的均值。目前,针对统计推断,业界存在两个误解。

统计推断无用论:认为大数据时代只做描述性统计分析即可,不需要做统计推断。由于总体有时间和空间两个维度,即使通过大容量与高速并行处理得到空间上的总体,也永远无法获取时间上的总体,因为需要预测的总是新的客户或新的需求。更为重要的是,在数据科学体系中,统计推断的算法往往是复杂的数据挖掘与人工智能算法的基础。比如特征工程中大量使用统计推断算法进行特征创造与特征提取。

学习统计推断的产出/投入比低:深度学习大行其道的关键点是产出/投入比高。实践表明,具有高等数学基础的学生可以通过两个月的强化训练掌握深度学习算法并投入生产,而培养同样基础的人开发可落地的商业统计模型的时间至少是半年,原因在于统计推断的算法是根据分析变量的度量类型定制开发的,需要分析人员对各类指标的分布类型有所认识,合理选择算法。而深度学习算法是通用的,可以在一个框架下完成所有任务。听上去当然后者的投入产出比更高。但是,效率与风险往往是共存的。目前,顶尖AI公司的模型开发人员发现一个现象:解决同样的问题,统计模型开发周期长而更新频次低;深度学习算法开发周期短而优化频次高。过去,深度学习所鼓吹的实时优化造成企业过度的人员投入,使得企业综合受益不一定高。而本书的目的之一就在于降低统计推断学习的成本。读者将来只要按照表1-2所示方法分析,即可大大缩减学习时间。

表1-2 统计推断与统计建模方法

017-01

[1]个体客户相关的知识往往被称为“客户标签”。客户标签和客户画像很容易混淆。两者的主要差异是分析的视角不同。客户标签是通过对客户的微观分析得到的变量(数据分析中也称为列、属性、特征),根据获取标签的难度分为基础、统计、模型三种;客户画像是从产品、地域、时域等角度对客户属性(标签)进行描述性统计,以便获得客户的总体特征。客户画像在市场研究、产品设计、风险偏好、营销渠道选择方面有重要的应用。