- 量化投资:MATLAB数据挖掘技术与实践(第2版)
- 卓金武
- 1057字
- 2025-02-27 14:07:37
第5章 数据的探索
经过前面数据的准备,已经获得了一些基本的质量较高的数据,在正式使用数据挖掘之前,通常先进行数据的探索,就像采矿前,先要探索一下要挖掘的矿藏。探索矿藏,人们通常关注的是矿藏的储量、分布特征、物理及化学属性等基本信息,以便确定采矿的方式、工具、人员配备等内容。其实,数据挖掘的过程和采矿的过程是一致的,在进行正式的数据挖掘前,读者有必要了解数据的量、数据的属性特征、关联关系等信息,以便确定数据挖掘的模型、算法、技术路线等内容。
所谓数据的探索(Data Exploratory,DE),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当分析人员对这些数据中的信息没有足够的经验,不知道该用何种统计方法进行分析时,DE就会非常有效。
在对数据进行初步分析时,往往还无法确定采用什么模型对哪些变量进行挖掘。分析者先对数据进行探索,辨析数据的模式与特点,并将它们有序地进行整合,这样就能够灵活地选择和调整分析模型,并揭示数据相对于常见模型的种种偏离。
DE的特点有如下三个:第一,在分析思路上让数据说话,不强调对数据的整理,从原始数据出发,深入探索数据的内在规律,而不从某种假定出发,套用理论结论,拘泥于模型的假设。第二,DE分析方法灵活,不拘泥于传统的统计方法。分析方法的选择完全从数据出发,灵活对待,灵活处理,什么方法可以达到探索和发现的目的就使用什么方法。这里特别强调的是,DE更看重方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。第三,DE的结果简单直观,更易于普及,更强调直观及数据可视化,更强调方法的多样性及灵活性,使分析人员能一目了然地看出数据中隐含的有价值的信息,以及其遵循的普遍规律及与众不同的突出特点,从而得到启迪,满足分析者的多方面要求,这也是DE对于数据挖掘的主要贡献。
实际上,在数据的探索阶段,分析人员完全可以不受太多理论条件的束缚,充分展开想象的翅膀,多角度、多层面地对现有数据的规律进行可视化的探索,新的线索往往就会自然而然地出现,为下一步的统计建模与预测等精细化分析奠定良好的基础。
总之,DE强调灵活地探求线索和证据,重在发现数据中可能隐藏的有价值的信息,比如数据的分布模式、变化趋势、可能的交互影响、异常变化等。用什么方法才能很好地探索这些数据,从中发现分析人员所期望的,甚至意想不到的重要信息呢?本章将系统介绍数据探索的常用方法和技术,包括衍生变量、数据的统计、数据可视化、样本选择和数据降维。