阿祥

阿祥[私信]

  • 9 积分
  • 4 粉丝
  • 1335 被赞

循环写作,持续更新,形成闭环,贵在坚持

85

Pandas数据分析—— 数据框的str列内置的方法详解

利用python做数据分析时候,我们经常会用到pandas库,对DataFrame对象进行处理Python基本上完全可以代替SQL的基础筛选条件命令,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字(类似SQL里面的like),某列的字符长度是否小于3等等这种需求,如果掌握str列内置的…

111

可视化——喜迎十九大,词云说天下

中国共产党第十九次全国代表大会(简称党的十九大)于2017年10月18日至10月24日在北京召开。 2017年10月18日上午9:00,中国共产党第十九次全国代表大会在人民大会堂开幕。习近平代表第十八届中央委员会向大会作了题为《决胜全面建成小康社会夺取新时代中国特色社会主义伟大胜利》的报告。 这次大…

73

如何处理偏斜类(imbalanced classes)

1.介绍 偏斜类是在我们处理机器学习中常遇到的情况。比如一个二分类问题,样本中class0的样本数占90%,而class1的样本数只占10%。当直接使用这样的训练样本进行训练时,如果采用正确率(Accuracy)来衡量,会得到一个很令人满意的分值。但是这个结果基本是不可信的,这种现象被称…

82

AI Challenger全球AI挑战赛开幕,公布千万级数据集(含下载地址)

赛题描述 简介 对股票价格趋势的预测是金融领域极为复杂和极为关键的问题,有效市场假说认为股票价格趋势不可能被预测,然而真实市场由于各种因素的存在并不完全有效,这对于股票市场而言相当于一种“错误”。这里我们为参赛者提供了大规模的股票历史数据,从而可以通过集合大家的智慧来纠正股票市场的这些“…

77

【转】XGBoost参数调优完全指南(附Python代码)

译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下代码,不一定要完全跟着教程做~^0^ 需要提前安装好的库…