赛题描述
简介
对股票价格趋势的预测是金融领域极为复杂和极为关键的问题,有效市场假说认为股票价格趋势不可能被预测,然而真实市场由于各种因素的存在并不完全有效,这对于股票市场而言相当于一种“错误”。这里我们为参赛者提供了大规模的股票历史数据,从而可以通过集合大家的智慧来纠正股票市场的这些“错误”。

数据说明
数据集包括训练数据集和测试数据集两部分,用户可在右侧下载。

训练数据集用来进行模型训练,是一个以逗号分隔的文本文件(csv),格式示例:

id feature0 feature1 ... weight label group era
0 0.254232 0.473321 ... 9.0 1.0 1.0 1.0
1 0.763212 0.309311 ... 3.0 0.0 7.0 1.0
其中id列为数据唯一标识编码,feature列为原始数据经过变换之后得到的特征,weight列为样本重要性,label列为待预测二分类标签,group列为样本所属分组编号,era列为时间区间编号(取值1-20为时间顺序)。

测试数据集用来进行模型预测,是一个以逗号分隔的文本文件(csv),格式示例:

id feature0 feature1 ... group
600001 0.427248 0.754322 ... 3.0
600002 0.253232 0.543121 ... 5.0
其中id列为数据唯一标识编码,feature列为原始数据经过变换之后得到的特征。测试数据集不包括weight列、label列和era列。


结果提交说明
选手可以在周一00:00:00~周五23:59:59之间上传本期比赛结果,期间不限制上传次数,周六之后不再接受新的上传,将按照选手最后一次上传结果进行评分。

上传的结果为一个以逗号分隔的文本文件(csv),格式示例:

id proba
600001 0.843231
600002 0.323443
其中id和测试数据集的id一列完全对应,proba为预测为正类即标签为1的概率,概率值必须为0~1之间的某个浮点数。


评价标准
虚拟股票趋势预测比赛的评价指标类比一般二分类问题的评价方式,将最终的logloss值作为最终选手排名的依据,logloss的计算方法如下:

$$logloss = -sum_{i=1}^N (w^i * (y_t^i * ln(y_p^i) + (1 - y_t^i) * ln(1 - y_p^i)))$$
其中$$y_t^i$$是第i个样本的真实标签,$$y_p^i$$是第i个样本预测为正类的概率,$$w^i$$是第i个样本的样本权重,N是测试集样本数量。


比赛提示
本比赛用到的训练数据集是很特殊的,所以参赛者不能把比赛当作一个简单的二分类任务来优化。

测试数据集在任何情况下都不能引入到训练集(包括但不限于非监督学习、数据归一化),否则可能出现过拟合问题,导致公开排名和最终排名出现较大差异。

对于交叉验证,建议按照训练数据era列随机抽取一个或若干个era进行交叉验证,而不是在全部训练样本上进行随机采样进行交叉验证,因为后者会导致严重的过拟合问题,这也是我们加入了era列的主要目的。


数据下载地址:链接:http://pan.baidu.com/s/1eSpM1ea 密码:u95t

原文链接:,转发请注明来源!

阿祥 循环写作,持续更新,形成闭环,贵在坚持

加关注
喜欢 | 0

登陆后发表文章