机器学习

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

50 篇文章 22665 次浏览
周帆
3

一文讲解机器学习算法中的共线性问题

  

作者 | 宋老师

来源 | JSong的数据科学小站

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树和贝叶斯,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的,在很多时候,多重共线性是一个普遍的现象。在构造预测模型时如何处理多重共线性是一个比较微妙的议题。既不能不加控制,又不能一刀切,认为凡是多重共线性就应该消除。

1、共线性的原理

假设有k个自变量的多元线性回归模型:

一文讲解wordsbank_match location='/map/jiqixuexi/'机器学习/wordsbank_match算法中的共线性问题

其中误差项是一个期望值为0且服从正态分布的随机变量:

一文讲解机器学习算法中的共线性问题
周帆
11

机器学习的数据准备:为什么它如此重要,我们应该怎么做?


作者 | Nandhini TS

编译 | CDA数据分析师

Data Preparation for Machine learning : Why it’s important and how to do it

编码是成功的业务模型的前提。

建立成功的AI / ML模型3个方面算法,数据和计算。

虽然建立准确的算法和计算技能的应用是过程的一部分,但这是什么基础呢?

使用正确的数据奠定基础

从自动驾驶汽车等基于AI的大规模技术革命到构建非常简单的算法,您都需要正确格式的数据。实际上,特斯拉和福特一直在通过行车记录仪,传感器和倒车摄像头收集数据,并对其进行分析以制造出无人驾驶和全自动汽车,以确保安全的道路。

收集数据之后的下一步是准备数据的过程,这将成为本文的重点,并将在后续部分中详细讨论。在深入研究数据准备过程的概念之前,让我们首先了解其含义。作为基于AI创新的大脑的数据科学家,您需要了解数据准备的重要性,以实现模型所需的认知能力。

什么是数据准备?

数据是每个组织的宝贵资源。但是,如果我们不进一步分析该声明,它可能会否定自己。 企业将数据用于各种目的。从广义上讲,它用于制定明智的业务决策,执行成功的销售和营销活动等。但是,这些不能仅用原始数据来实现。

AIU人工智能学院
15

风靡全球的十大算法

风靡全球的十大算法
AIU人工智能学院
7

2020职场AI技能排行榜:TensorFlow热度飙升,Python最火,市场部也在学

2020职场AI技能排行榜:TensorFlow热度飙升,Python最火,市场部也在学
AIU人工智能学院
9

一键提升数据挖掘姿势水平,5种高效利用value-counts函数的方法

一键提升数据挖掘姿势水平,5种高效利用value-counts函数的方法
AIU人工智能学院
12

用Python做一只真·多足机器人,钢铁蜈蚣能弯曲还能蠕动

用Python做一只真·多足机器人,钢铁蜈蚣能弯曲还能蠕动
AIU人工智能学院
15

梳理十年Kaggle竞赛,看自然语言处理的变迁史

梳理十年Kaggle竞赛,看自然语言处理的变迁史
AIU人工智能学院
8

当下大数据发展的 8 个要点

当下大数据发展的 8 个要点
AIU人工智能学院
9

眼见未必为实,Deepfake又来\"作妖\"了,发福“钢铁侠”,AI换脸好莱坞明星圆桌对话不忍直视!

眼见未必为实,Deepfake又来\
AIU人工智能学院
11

破解神经网络、攻击GPU,AI黑客教程来了,已登GitHub热榜

破解神经网络、攻击GPU,AI黑客教程来了,已登GitHub热榜