永洪科技
3

数字化转型大势下,企业如何实现数据管控?

数字化转型大势下,企业如何实现数据管控?

在上一篇我们讲到了业务人员可以用永洪产品的自服务数据集进行自助式分析,那么IT管理员如何管理业务人员进行分析呢? 某财险类客户案例 永洪的某财险客户需要业务用户进行自助式分析,高峰期在350并发以上,企业IT管理部希望对所有IT人员和业务人员查询…

周帆
3

如何用python在工作中“偷懒”?

  作者|A字头来源|数据札记倌有些朋友在工作中会有这样的困惑:明明我从早忙到晚,为什么得到的评价还不高?要知道,企业对一个员工的评价是出于“产出”而非“付出”。所以,如果把大量时间花在机械重复的工作上,不但工作效率不高,对个人发展来说也无甚帮助。而这些工作,如果对于会点编程的人来说,往往通过几行代…

永洪科技
2

超强数据源覆盖能力,永洪科技BI产品全面支持Greenplum

近日,永洪科技一站式大数据分析平台YonghongZ-Suite全面支持Greenplum,其强大的开放性和兼容性可更好服务广大客户,满足企业客户数字化转型的需求。Greenplum为全球开源、多云大数据平台,专为高级分析而打造,被Gartner列为全球十大经典和实时数据分析产品中唯一开源数据库。G…

王艳
2

求武陵山片区地图,arcgis可以直接操作的那种,谢谢!

求武陵山片区地图,arcgis可以直接操作的那种,谢谢!  

周帆
1

一文讲解机器学习算法中的共线性问题

  

作者 | 宋老师

来源 | JSong的数据科学小站

多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树和贝叶斯,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但是对于回归算法,不论是一般回归,逻辑回归,或存活分析,都要同时考虑多个预测因子,因此多重共线性是不可避免需要面对的,在很多时候,多重共线性是一个普遍的现象。在构造预测模型时如何处理多重共线性是一个比较微妙的议题。既不能不加控制,又不能一刀切,认为凡是多重共线性就应该消除。

1、共线性的原理

假设有k个自变量的多元线性回归模型:

一文讲解wordsbank_match location='/map/jiqixuexi/'机器学习/wordsbank_match算法中的共线性问题

其中误差项是一个期望值为0且服从正态分布的随机变量:

一文讲解机器学习算法中的共线性问题

  作者|宋老师来源|JSong的数据科学小站多重共线性是使用线性回归算法时经常要面对的一个问题。在其他算法中,例如决策树和贝叶斯,前者的建模过程是逐步递进,每次拆分只有一个变量参与,这种建模机制含有抗多重共线性干扰的功能;后者干脆假定变量之间是相互独立的,因此从表面上看,也没有多重共线性的问题。但…

永洪科技
4

轻松构建复杂数据集,永洪自服务数据查询功能详解

轻松构建复杂数据集,永洪自服务数据查询功能详解

现在的报告样式多种多样,越来越炫酷以至于让人应接不暇。如果想从数据结果上进行溯源,由于数据处理过程盘根错节且技术性过强,让业务人员捉襟见肘。如何让业务人员清晰可视化的看到数据从来源、加工到展示的一步步操作,永洪科技为您排忧解难。 今天这篇文章,主要介绍永洪自服务数据查询,这种方…

周帆
4

数据科学家的高级进修:学会如何“讲故事”

来源:IT168  在不算太遥远的过去,业界对数据科学家的评判主要依据于他们发现、理解、管理和综合信息的能力。随着数据环境的不断发展和计算能力的不断提高,编码技能变得越来越重要。随着时间的推移,又出现了更加细致入微的技能要求,包括人工智能方法的专业知识、判断数据真实性以及许多其他的能力。最近,随着许…

永洪科技
4

关于Mapsidejoin最详细的应用介绍在这里

数据集干货:一文读懂Mapsidejoin

我们知道数据分析的第一步是准备数据,所以在前面的课程里,我们介绍了元数据。今天这篇文章,主要介绍大数据量组合数据集在永洪中的应用实例:Mapsidejoin。什么是Mapsidejoin?按照字面意思,Mapsidejoin就是M—节点—组合。在了解Mapsidejoin之前,首先我们要了解一下Ma…

周帆
4

数据分析实践入门(一):数据预处理


作者|CDA数据分析师

从菜市场买来的菜,总有一些是坏掉的不太好的,所以把菜买回来之后要做一遍预处理,也就是把那些坏掉的不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品,拿到手以后会有一些不好的数据,所以都要先做一次预处理。

常见的不规则数据主要有缺失数据、重复数据、异常数据几种,在开始正式的数据分析之前,我们需要先把这些不太规整的数据处理掉,做数据预处理。

一、缺失值处理

缺失值就是由某些原因导致部分数据是空的,对于为空的这部分数据我们一般是有两种处理方式的,一种是做删除处理,即把含有缺失值的数据删除;另一种是做填充处理,即把缺失的那部分数据用某个值代替。

1、缺失值查看

对缺失值进行处理,首先要把数据中的缺失值找出来,也就是查看数据中有哪些列有缺失值。

(1)、Excel实现

在Excel中我们选中一列没有缺失值的数据,看一下这一列数据共有多少个,然后把其他列的计数与这一列进行做对比,小于这一列数据个数的就代表该列数据有缺失值,差值就是缺失个数。

下图中非缺失值列的数据计数为5,性别这一列计数为4,这就表示性别这一列是有一个缺失值的。

作者|CDA数据分析师从菜市场买来的菜,总有一些是坏掉的不太好的,所以把菜买回来之后要做一遍预处理,也就是把那些坏掉的不太好的部分扔掉。现实中大部分的数据都类似于菜市场的菜品,拿到手以后会有一些不好的数据,所以都要先做一次预处理。常见的不规则数据主要有缺失数据、重复数据、异常数据几种,在开始正式的数…

周帆
2

数据分析师的核心竞争力在哪里?

 作者|李梅花来源|玩转数据分析不知不觉,我已经做数据分析相关工作已经有9年时间了。经常有被问到,数据分析师的核心竞争力在哪里,好像入门的工具都挺好掌握的呀。是的,知识跟技能都是可以通过时间跟努力来学会的,但是有5大能力是数据分析师更应该具备且持续提升的,也是我们的核心竞争力。1  解决问题的能力这…