【机器学习实战06】贝叶斯网络

1、概率知识条件概率:事件A在另外一个事件B已经发生条件下的发生概率。表示:P(A|B)记作 “在B条件下A的概率”乘法定理:设P(A)>0,则有 全概率公式:如果事件B1,B2,B3….Bn构成一个完备事件组,即两两互不相容,其和为全集,且P(Bi)>0,则对任一事件A来说: 贝叶斯公式:设实验E的样本空间为S,A为E的事件,B1,B2,B3…..Bn为S的一个划分,切事件的概率都大

机器学习实战——朴素贝叶斯分类

准备数据:从文本中构建词向量前期测试函数用的数据def loadDataSet():'''创建一些实验样本''''my','dog','has','flea','problems','help','please''maybe','not','take','him','to','dog','park','stupid''my','dalmation','is','so','cute','I','lo

机器学习实战:朴素贝叶斯分类(二)

使用朴素贝叶斯过滤垃圾邮件(1)收集数据:提供文本文件。(2)准备数据:将文本文件解析成词条向量。(3)分析数据:检查词条确保解析的正确性。(4)训练算法:使用我们之前建立的trainNBayes0函数(5)测试算法:使用classifyNB(),并且构建一个新的测试函数来计算文档集的错误率。(6)使用算法:构建一个完整的程序对一组文档进行分类,将错分的文档输出到屏幕上。1、准备数据:切分文本之前

机器学习实战教程(四):朴素贝叶斯基础篇之言论过滤器

原文链接: Jack-Cui,https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html一、前言朴素贝叶斯算法是有监督的学习算法,解决的是分类问题,如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的

[机器学习实战札记] 朴素贝叶斯

《概率论》(当年我学习的课程为《概率论与数理统计》,涵盖了概率论与统计学)应该是每个理工科大学生都要学习的课程,不知道有多少同学和我一样,学得一头雾水。悲催的是,考研的时候又学习了一遍,依然不着门路,靠死记硬背过关。好在后面的学习和工作生涯中,再没有和它打过照面,直到最近开始接触机器学习。《机器学习实战》第4章,开始介绍基于概率论的分类方法。其实《机器学习》这本书对贝叶斯决策论有比较详细的介绍,不

《机器学习实战》朴素贝叶斯(Naive Bayes)分类

1. 《机器学习实战》K近邻(KNN)分类 2. 《机器学习实战》决策树 \quad对于朴素贝叶斯理论分析可看朴素贝叶斯法及其R实现 ,对于这篇的R实现,只是在这种特殊情况,对于一般的情况并没有实现,所以,本篇文章使用python实现朴素贝叶斯分类的一般方法,并对垃圾邮件进行分类。##word list vector functiondef loadDataSet():'my','dog','

机器学习实战:基于概率论的分类方法:朴素贝叶斯(源码解析,错误分析)

按照惯例,先把代码粘到这里from numpy importdef LoadDataSet():'my', 'dog', 'has', 'flea', 'problems', 'help', 'please''maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid''my', 'dalmation', 'is', 'so', 'cute

机器学习实战第四章-朴素贝叶斯

朴素贝叶斯1.1准备数据:从文本中构建词向量#创建实验样本def loadDataSet():'my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], #切分的词条'maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid''my', 'dalmat

【二十】机器学习之路——朴素贝叶斯实战(文本分类)

[写在前面:最近工作上事情比较多,加上年终述职和元旦假期去首都玩了一次,导致这篇博客前前后后写了快有半个月,跨越了2017和2018年,意义非凡。在这里祝大家新年快乐,也希望自己在新的一年能够坚持学习,提升自己!]  上一篇博客机器学习之路——朴素贝叶斯分类写到了朴素贝叶斯的理论知识,今天来讲一下朴素贝叶斯实战——文本分类,本文内容参考《机器学习实战》。  举个简单的例子,我们在网上发帖的时候,如

机器学习实战 ---- 朴素贝叶斯

一、贝叶斯的数学知识:如图所示,有三个罐子,1号罐子里装有2红1黑三个球,2号装有3红1黑4个球,3号装有2红2黑4个球。从中随机取一罐,再从中任意取出一球,如果已知取出的球为红球,求其属于i号罐的概率:(设Bi事件为取出的球来自i号罐,A事件为取得的为红球)                                                          以上的公式称为贝叶斯公式

机器学习实战之朴素贝叶斯_代码注释

from numpy import def loadDataSet(): postinglist = [['my','dog','has','flea','problems','help','please''maybe','not','take','him','to','dog','park','stupid''my','dalmation','is','so','cute','I','lo

【8】机器学习之语音识别:隐马尔科夫模型

一 掷骰子与动归思想隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。      1)知道骰子有几种(隐含状态数量),每种骰子是什么(转换概率),根据掷骰子掷出的结果(可见状态链),我想知道每次掷出来的都是哪种骰子(隐含状态链)。 2

【机器学习】Logistic回归的梯度上升法

一、问题引入 二、问题分析 三、代码实现 function thetas = gradAscent(dataMat, classLabels, iterNum)[m, n] = size0.001ones(n, 1for i = 1:11.0 ./ (1 + exp(-(dataMat * thetas))); % sigmoid函数dataMat' * error;

《机器学习实战》第5章 Logistics回归之梯度上升算法原理补充

《机器学习实战》中关于第5章Logistics回归的原理讲解比较少,对于初学者来说可能比较疑惑其中的计算。我就是其中一个,通过学习,懂了差不多,也将我学习到的分享在这里,希望能够对看到这篇博文的朋友有所帮助。一、回归问题回归问题即是通过一些已知数据点,我们用一定的方法对这些数据点进行拟合,这个拟合的过程就称作回归。如下图所示的线性回归,蓝色点是已知的数据点,红色直线是我们拟合的最佳直接,求取图中红

【机器学习笔记1】Logistic回归总结

 Logistic回归总结作者:洞庭之子微博:洞庭之子-Bing(2013年11月)PDF下载地址:http://download.csdn.net/detail/lewsn2008/65474631.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学

机器学习实战笔记5(logistic回归)

1:简单概念描述假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。这就是简单的线性回归问题,可以通过最小二乘法求解其参数,最小二乘法和最大似然估计见:http://blog.csdn.net/lu597203933/article/details/45032607。 但是当有一类情况如判断邮

机器学习之logistic回归的梯度上升算法

机器学习之logistic回归的梯度上升算法算法背景:一般来说,回归模型一般不用在分类问题上,因为回归是连续型模型,而且受噪声的因素很大,但是,若需要选择,可以选择使用logisti 回归。对数回归本质上是线性回归,只是在特征到结果的映射里加入了一层函数映射,选择g(z)=1/(1+exp(-z))作为sigmoid函数进行映射,可以将连续值映射到0-1之间。其中g(z)函数的图像如下:可以看到,

机器学习--Logistic回归之梯度上升算法

一、Logistic回归与梯度上升算法Logistic回归是众多分类算法中的一员。通常,Logistic回归用于二分类问题,例如预测明天是否会下雨。当然它也可以用于多分类问题,不过为了简单起见,本文暂先讨论二分类问题。首先,让我们来了解一下,什么是Logistic回归。1、Logistic回归假设现在有一些数据点,我们利用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作为回归,

Logistic回归-数学原理(1)机器学习实战

前言 :    这篇主要讲logistic回归,虽然名字上是回归,但很多时候我们都将他用于分类,由于这一章公式比较多,而且第一次遇到了最优化算法,所以本文大部分会放在相关数学公式的证明和理解上,代码实现部分之后再补充。    先解释一下什么是回归,我们经常会接触到一些数据点,希望拟合一条直线或者曲线去近似他,从而预测其他未知变量的值,而这个拟合过程就称作回归。而logistic回归解决分类问题的主

机器学习基础-5.PCA和梯度上升

一、PCA1.PCA思想PCA(principle component analysis),即主成分分析法,是一个非监督的机器学习算法,主要用于对数据的降维,通过降维可以发现更便于人理解的特征,加快对样本有价值信息的处理速度,此外还可以应用于可视化(降到二维)和去噪。例如下图所示,样本有2个特征,现在对该样本进行降维处理。首先考虑直接选择特征1或者特征2降维,经过降维后的样本由2维降到1维,如图所