机器学习07_朴素贝叶斯
概率基础概率定义:一件事情发生的可能性,用在算法中,样本的数量越大,得到的概率越准
联合概率,条件概率与相互独立
联合概率:包含多个条件,且所有条件同时成立的概率
记作:P(A,B)
P(程序员,超重),P(程序员,超重|喜欢)
条件概率:就是事件A在另一个事件B已经发生的情况下发生的概率
记作 ...
机器学习06_模型的选择与调优
什么是交叉验证(cross validation)将拿到的训练数据,分为训练和验证集,交叉验证的目的:为了让被评估的模型更加准确可信
例:将数据分成四份其中一份作为验证集,然后经过四次的测试,每次都更换不同的验证集,即可得到四组模型的结果,取平均值作为最终的结果,又称4折交叉验证
超参数搜索-网格 ...
机器学习05_KNN近邻算法
什么是k-近邻算法核心思想:根据你的“邻居”来推断出你的类别
定义:如果一个样本特征空间中的K个最相似(既特征空间中最近邻)的样本中的大多数属于摸一个类别,则该样本也属于这个类别
距离公式(欧式距离):
还有:曼哈顿距离 = 绝对值距离,明科夫斯基距离
处理k值取得过小,容易受到异常点的影响
k值 ...
机器学习04_sklearn转化器和预估器
转换器流程
实例化(实例化就是一个转换器(Transformer))
调用fit_transform = (x-mean)/std;是一个封装
可以分解为
fit()计算 每一列的平均值,标准差
transform() (x-mean)/std 进行最终的转换
估计器(sklearn ...
机器学习03_主成分分析(降维).md
降维(PCA)定义:高维数据转化为低位数据的过程,在此过程中可能会舍弃原有数据,创造新的变量
作用:是数据维数压缩,尽肯能降低元数据的维数(复杂度),损失少量信息
应用:回归分析或者聚类分析当中
思路:找到一条合适的直线,通过一个矩阵运算得出主成分分析的结果
API
from sklearn.dec ...
UC代码汇总
pid#include
#include
int main(){
pid_t pid = getpid();//获取当前程序的进程号
pid_t ppid = getppid();//获取当前进程的父进程
printf("当前进程ID%d,父进程ID%d\n",pid,p ...
UC课程笔记
内存管理
整数页为4096 = 4K
进程和程序
程序 - 硬盘上的可执行文件
进程 - 在内存中运行的程序
进程中的内存区域划分
–代码区-来存放可执行文件的操作指令-不可写的
–只读常量区- 存放字符串常量,以及const修饰的全局变量
–全局区/数据区 - 存放已经初始化的全局变量 ...
机器学习02_特征工程
特征工程介绍为什么需要特征工程?数据和特征决定了机器学习的上限,而模型和算法只是逼近了这个上限而已
什么是特征工程?特征工程会直接影响机器学习的效果
sklearn 特征工程
pandas 数据清洗、数据处理
特征提取 机器学习算法 -> 统计方法 -> 数学公式
1.将任意数据(文 ...
机器学习01_数据集
数据集
sklearn
kaggle
uci
Scikit-learn包含
分类
回归
聚类
降维
模型选择
特征功能
sklearn数据集sklearn.dataets
load_*获取小数据集
fetch_*获取大数据集
sklearn小数据集
sklearn.data ...
机器学习的种类
什么是机器学习通过机器学习就可以简化代码,并且提升执行的表现,可以找到好的解决方案,可以适应新的数据,在复杂和海量数据中获得特征
机器学习系统的种类*监督式学习我们教会计算机学习
我们给算法一个数据集其中包含了正确答案(目标值),再给未标记的训练集进行测试
目的:给出更多的正确答案
回归任务:线 ...