神经网络作为一个极其热门的领域,在最近几年内席卷了各大研究领域.而有关的内容也是我一直想要学习的.这篇文章是上学期数据挖掘课程的笔记,主要参考了老师的讲义.介绍的内容是神经网络的一些基础概念,从感知器的概念开始,到经典的反向传播算法.作为神经网络这一大类的第一篇文章,我们将重点放在理解原理上,希望能够清楚地解释神经网络的工作方式和训练神经网络的基本过程.
Laplacian Eigenmap
这篇文章是流形学习算法总结的第一篇。我们选择了更有特色的Laplacian Eigenmap算法来进行介绍。流形学习是一种非线性的数据降维方法,主要是假设数据是分布在某个嵌入高维空间中的潜在流形这一假设来进行各类操作的。LE算法是其中的一个代表,其核心想法是利用laplace算子的特征空间来进行数据降维。本文主要参考的M.Belkin在NIPS2002的原论文: Laplacian Eigenmaps for Dimensionality Reduction and Data Representation.
谱聚类
这篇文章主要介绍的是谱聚类。这是一种目前常见的聚类算法,试图通过无监督的方式将数据点划分为若干类或者簇。谱聚类作为一种聚类算法,具有诸多优点:(1)效果较好,诸多数据集上的对比试验表明其性能优于一般算法(2)使用范围广泛,可以在任意形状的样本空间上聚类且收敛于全局最优解(而传统聚类算法如Kmeans和EM算法都是建立在凸球形的样本空间上的,否则容易陷入局部最优)(3)计算简单:其最终求解是划归成了矩阵特征值的求解,实现简单(4)聚类仅和数据点数目有关,而与维数无关。这个方法在学校的数据挖掘课上老师也专门花了一大节三小节课来介绍,在UW做暑研的老板的一个主要方向就是谱聚类(然而我并不是这个方向的)。在这里也想系统地学习和介绍一下这一算法。本文主要参考的是上课的笔记和讲义。
从Simpson悖论说起
提起统计学,大家耳熟能详的一个论断是,统计学只能探讨相关关系而不能发现因果关系。一定程度上,这样说是有道理的。至于相关关系和因果关系有什么区别,这种区别对于统计推断来说又意味着什么,可能除了专业的做Causal Inference这部分的人以外,都没有什么概念。我们从Simpson悖论开始,希望能够说明相关性和因果性的区别和联系。这篇文章主要参考的是丁鹏老师在北大的讲义。