最终数据评分规则说明

在初赛阶段,为方便参赛选手训练、评估模型,组委会提供了风机的全部数据。通过比较选手上传的数据结果,组委会发现部分选手在“齿形带断裂故障预测”问题所提交的结果中出现了部分非正常高分,原因详见《竞赛补充说明》,这里不再多加赘述。为避免参赛选手对竞赛规则的理解有所偏差而在方法选择上出现误判,利用检测,回溯等方法来解决预测问题,从而导致最终成绩无效的情况,最终数据将采用更为严格评分规则。

赛题1:风机叶片结冰预测大赛

在最终测试集中,我们将删除随机长度的叶片严重结冰数据。结果提交形式与初赛阶段一样,评分规则稍作修改,具体如下:

  • 故障时间区间覆盖的数据行标记为1;
  • 正常时间区间覆盖的数据行标记为0。

最终评分为:

其中,为权重系数,根据正负样本数量比给出,+=1。其中FN和FP的解释下表所示:

预测结果
实际 0 1
0 True Positive(TP) False Negative(FN)
1 False Positive(FP) True Negative(TN)

最终测试数据集有两次结果提交机会。对于数据中的group字段需要特别说明,该字段并不是SCADA的原始数据字段,提供该字段是为了参赛者更好的理解物理现象,在最终数据集中没有该字段,所以建议参赛者不要将该字段作为特征使用。

赛题2:风机齿形带故障分类大赛

不同与初赛阶段,在最终数据集中,组委会提供长度为N个采样周期的数据片段(命名规则为:编号_data.csv),字段与初赛阶段一致但不包含齿形带断裂时刻t0附近的数据。选手需要预测接下来46285个采样周期(约90个小时)内齿形带断裂的采样周期M,t0=N+M。需要特别注意的是存在46285个采样周期内没有齿形带断裂的数据片段,此时M≫46285,预测模型给出任意大于46285的值即为预测正确,表示46285个采样周期内无齿形带断裂故障。

结果提交形式

最终测试数据集有两次结果提交机会,结果的提交需按照以下格式:

  • 以.csv格式保存结果,并命名为:results.csv
  • 内容格式如下:
文件编号 M
01_data.csv 10000
02_data.csv 20000
…… ……

评分规则

评分原则示意图如下图,预测的M ̅越接近实际的M得分越高,超估(overestimating)的惩罚力度大于低估(underestimating)的惩罚力度。

评分规则

图中:d=-M

最终得分:

其中P、N分别正负样本集合(46285个采样周期(约90个小时)内有齿形带断裂故障为正),, 是对应的得分权重,是根据正负样本数量比给出,score[0,100]为单个数据片段的得分,分为四种情况:

1、如果M > 46285(约90小时), > 46285,则 = 100

2、如果M < 46285(约90小时), > 46285,则 = 0

3、如果M > 46285(约90小时), ≤ 46285,则 = 0

4、如果M < 46285(约90小时), ≤ 46285,则