数据模型与决策
01
SPSS 软件
https://www.ibm.com/cn-zh/spss
SPSS操作:简单线性回归(史上最详尽的手把手教程) - 知乎 (zhihu.com)
02-基本概念
相关性分析
相关分析用于检验变量间的关系,但仅仅只能确定变量之间是否存在关系,而不能确定这一关系的*方向性*,例如X与Y之间存在显著正相关关系,但我们无法知道是X水平越高,Y水平随之越高,还是Y水平越高,X水平随之越高。如果想确定变量间关系的方向性,则需用到回归分析(Regression)分析。
回归分析
层次回归
采用层次回归,可以控制协变量的影响。 例如,我们想要控制X1和X2,研究X3和X4对Y的影响。
03 analysis of variance
one-way analysis ANOVA
predict a key dependent variable
F-Static
单因素方差分析
F-TEST 两组或多组数据的方差,均值比较
F显著,至少2组均值星火显著差异。
线性回归
Regression analysis can:
- Indicate if independent variables have a significant relationship with a dependent
variable.
- Indicate the relative strength of different independent variables’ effects on a
dependent variable.
- Make predictions.
Bigger deviances are weighted disproportionately high 。
较大的偏差被加权过高。
Y = α + βX + e
R 方
reflects the proportion of variance explained by the regression line 。 反映了回归线所解释的方差比例
Steps in liner regression
- Recognize research question and formulate hypotheses
- Determine how many variables you are comparing and choose significance
- Data requirements and initial analysis
- check Assumptions
- Models Estimation
- Interpretation and validation
- Report Results
significance level & p-value
显著性水平,假设检验中用来决定是否拒绝零假设。 如果 P 值小于这个显著性水平,拒绝零假设,有统计学意义(即有足够证据表明两组之前存在差异或某个效应是显著的)
零假设(null hypothesis),在统计学中通常用 H0H0 表示,是假设检验中的一个基本概念。它是一个研究假设,通常用来表示在没有观察到任何效应或差异的情况下的预期状态。零假设通常假设没有效应、没有差异或者没有关联。
P 值是在零假设 H0 为真的前提下,观测到的统计量或更极端情况出现的概率。它是一个介于 0 和 1 之间的数值,通常用于衡量结果的偶然性。 P 值较小:如果 P 值小于预先设定的显著性水平(如 0.05),则认为结果具有统计学意义,拒绝零假设,认为有足够证据支持研究假设。
F检验:即对方程是否有线性关系的检验。原假设 H0 没有线性关系。
t检验:
p值是什么?数据科学家用最简单的方式告诉你 - 知乎 (zhihu.com)
p 值越低,证据越令人惊讶,零假设越荒谬。
p 值越低,结果越有意义,因为它不太可能是由噪声引起的。
Dummy variables(虚拟变量或哑变量)是统计学和数据分析中常用的一种变量类型,用于处理分类数据或定性变量。在回归分析、机器学习模型和其他统计模型中,虚拟变量用于将非数值型数据(如性别、种族、国家等)转换为数值型数据,以便进行数学运算和模型构建。
Data requirements
- sufficient samples
Criteria 1 - Minimum between is 50+ 8 x N (N is number of independent variables)
Criteria 2 - Minimum between is 104 + N (N is number of independent variables)
Use what ever results in smaller number
- variable show variation
- no multi collinearity 非共线
Check Assumptions
- model can be expressed linearly.
- model expect mean error is zero.
- errors variance is constant .
- errors are independent.
- errors need to be approximately normally distributed
Instanced-based learning
memory based learning
新来的数据点通过与已有训练数据点的相似度来预测其类别标签。与传统的机器学习算法(如决策树和神经网络)不同,基于实例的学习算法不会从具体实例中创建抽象模型,而是简单地存储所有数据,在查询时通过检查查询点的最近邻居来得出答案。
优点
- 对于小数据集,它们可以表现得非常好,因为它们不需要构建复杂的模型。
- 它们可以适应新数据,并且可以随时添加新的训练或测试样本,而无需重新生成模型。
- 由于它们基于具体实例,因此更容易理解模型的预测结果
缺点
- 在预测阶段,需要将测试实例与每个训练实例进行比较,这可能导致高计算成本。
- 需要大量的内存来存储数据,并且每次查询都涉及从头开始识别局部模型。
- 对于与训练数据不同的新数据,模型可能会产生非常差的预测,因为算法之前没有遇到过类似的数据。
一些常见的基于实例的学习算法包括K最近邻(KNN)、自组织映射(SOM)、学习向量量化(LVQ)和基于案例的推理(CBR)。
1-Nearest neighbor
05 Support Vector Machine
支持向量机(Support Vector Machine, SVM)是一种强大的机器学习算法,主要用于解决数据分类(包括二分类和多分类)和回归问题。SVM的核心思想是在特征空间中找到一个最优的超平面,这个超平面能够最大化地分开不同类别的数据点,即最大化两类数据点之间的间隔。在处理线性可分和线性不可分的数据集时,SVM表现出色,并且可以通过核技巧处理非线性问题。
细胞样本分类(SVM) - IBM 文档SVM 基本原理
- 最优超平面:SVM的目标是找到一个超平面,使得不同类别的数据点之间的间隔(margin)最大化。间隔定义为从超平面到最近的数据点(支持向量)的最短距离。对于线性可分的情况,SVM的优化问题可以表示为最小化超平面法向量的欧几里得范数的平方,同时满足所有数据点都正确分类的约束条件。
- 软间隔:在现实世界中,数据往往不是完全线性可分的。为了处理这种情况,SVM引入了软间隔(soft margin)的概念,允许一些数据点违反间隔规则。软间隔SVM的优化问题可以表示为最小化超平面法向量的欧几里得范数的平方和松弛变量的和,同时满足所有数据点都基本正确分类的约束条件。
- 核技巧:当数据不是线性可分时,SVM可以使用核技巧将数据映射到高维空间,在这个空间中寻找线性分割。核函数的选择取决于数据的特性和问题的需求,常见的核函数包括线性核、径向基函数(RBF)核和多项式核。
多项式核
- Dot Product kernel
- Polynomial kernel
- Gaussian kernel
- Sigmoid kernel
应用
SVM在实际业务中有诸多应用,对于特征量较大、特征关系呈现非线性或者内存有限的情况,SVM都是常用的解决方案。SVM在文本分类、图像识别、生物信息学、金融风险管理等领域都有广泛的应用
优点
- 有效的分类性能:在许多实际应用中,SVM提供了非常有效的分类性能。
- 核技巧:SVM的核技巧允许它在高维空间中找到复杂的决策边界。
- 内存效率:SVM只与支持向量有关,这使得它在内存使用上非常高效。
- 鲁棒性:SVM对于数据中的噪声和异常值具有一定的鲁棒性。
- 适用于小样本数据:SVM在小样本数据集上也能表现良好。
缺点
- 计算复杂度:SVM的计算复杂度较高,尤其是在处理大规模数据集时。
- 参数选择:SVM的性能依赖于核函数和惩罚参数的选择,这需要大量的实验来确定最佳参数。
- 不支持在线学习:SVM不适用于在线学习或实时更新模型的场景。
- 解释性差:相比于决策树等模型,SVM的决策过程较难解释。
07 时间序列分析
forecasting
the component of the time series.
- trend
- cylical component
- seasonal
- irregular component