把自己的一些学习笔记都写到这上面，记录下来方便复习和查找

EM

EM知道分类数量么? 这篇讲的很好: http://blog.csdn.net/u012990623/article/details/42323661 为了解决这个你依赖我，我依赖你的循环依赖问题，总得有一方要先打破僵局，说，不管了，我先随便整一个值出来，看你怎么变，然后我再根据你的变化调整我的变化，然后如此迭代着不断互相推导，最终就会收敛到一个解。这就是EM算法的基本思想了。

贝叶斯

灵活掌握贝叶斯公式, 贝叶斯网络:是个有向图,两个节点产生一个条件概率,节点是随机变量 p(a,b,c)=p(c|a,b)p(b|a)p(a) a—–>b—->c -———–^ P(b|a) ===> a<—-b HMM, 比较诡异的是,x1,x2,…xn是不独立的!!!之前的回归,样本都是独立的! 比如语言有上下文,所以彼此词词间是不独立的. 共线 I(A,B)互信息 = 最小生成树,kruskal算法这篇是GAN必看的论文之一

贝叶斯实践

GaussianNB, 二项分布的NB,…的NB,各种分布都有NB的,他们之间是可以组合的. NB—>朴素贝叶斯 Naive Beyes? 朴素贝叶斯的前提是,1:各个特征之间是条件独立的(条件独立性),特别是适合自然语言处理,2:特征同等重要有时候不是条件独立,但是我们人为地让他独立,但是可以解决问题就可以. “特征之间的共线性”? 老师提到的概念文档单词组成的0/1向量是稀疏矩阵,但是维度一样. 如果一个词总在某个文档中出现,在其他文档中很少出现,那么这个文档中,这个词重要性就高, 逆文档频率在确定概率的情况下，有没有蒙特卡洛模拟得出的结论是一样的？蒙特卡洛,应用在树的搜索,不是用于建模的方法. word2vec K近邻 knightbour?

LDA

beta分布, theta的值是(0,1), 共轭是没有数学基础的,是为了工程简单的 LDA和语言无关的, 50维是指的50个主题么? 主题咋来de? 高频词和LDA主题词关系和区别? 选择共轭的原因是,是可以循环递归来回做,直到收敛到某个值. 噢,dirichlet 机器学习得到主题，而主题的实际意义需要等后续业务人员来归纳分析吧

语料库: http://mp.weixin.qq.com/s/0DkookBoiM4Db0VcbVRZhg

变分实现的Gensim开源的LDA, LDA实现起来有点复杂,

HMM

用HMM做分词,甚至不需要词库,神奇… 马尔科夫链实际上是一个只考虑前一个状态的条件概率,在之前的都不考虑了,这样做只是为了简化模型讲的最好的还是吴军的数学之美网上的盒子+红黑球是个简单易懂的例子,邹博也用它:https://www.zhihu.com/question/20962240 HMM就是在马尔科夫上加了一个输出层(观察层),之前的状态变成了隐含层, 状态层的各个状态的转移矩阵是一个概率,一般状态机迁移可以用矩阵表示,邹博讲过而那个所谓的”混淆矩阵”是隐含层状态<->输出层状态的转移概率. pi是开始时候的状态. 邹博的两个例子很赞:一个是中文分词,一个是红黑球,不会了就回去听听 HMM有3种玩法,就

SVM

Kernel函数, 正定矩阵相乘, 各个点的点乘函数,

提升

提到了梯度下降的时候,步长值是可以通过回溯线性搜索试探出来的, 是他之前的”梯度下降与牛顿”的22/56页提到的,叫Armijo准则,

决策树+随机森林

DecisionTreeRegression可以做回归么?就是预测连续值邹博的13提升课开头的例子12.4貌似就是, m 随机森林比决策树要平滑,不是锯齿状那么明显随机森林可以得到一个强分类器?

机器学习 & 深度学习 [笔记]

EM

贝叶斯

贝叶斯实践

LDA

HMM

SVM

提升

决策树+随机森林