codyhu/ant-competition
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
Repository files navigation
mayijinron 赛题简介 ATEC金融科技入门实战赛是针对金融科技新人开设的实战练习专场,以经典赛题作为学习场景,激励详尽入门分享,手把手教你学习BASIC(Blockchain/AI/Security/IoT/Computer)各项技能。 本次赛题为《支付风险异常识别》,是新人赛提供的第2个赛题。 1 、赛题任务描述 在金融行业中,风控系统与黑产的攻防几乎是无时不刻的存在着,风控系统中用来实时识别风险的机器学习模型需要在黑产攻击的手法改变的时候能够及时的对其进行重新识别。而机器学习算法在训练过程中学习到的黑产的攻击手法是基于历史数据中的黑样本学习而来,当模型上线后一旦黑产的攻击手法做了调整,这时候模型的性能往往会衰退,其主要原因就是原有模型变量对黑产攻击手法的刻画已经过时了。因此,风控中机器学习模型的一个非常重要的特性就是模型性能的时效性和稳定性要好,即把风险的变化趋势从数据的变动和黑样本的变迁中及时的学习出来,使得模型上线后能够在尽可能长的时间内不重新训练而能持续的对黑产攻击进行识别。在利用机器学习算法解决风控问题的过程中,另一较大的挑战是一部分样本数据的标签的缺失。主要原因为风控系统会基于对交易的风险判断而失败掉很多高危交易,这些交易因为被失败了往往没有了标签,而这部分数据又极其重要,因为风控系统中的黑样本量级本来就很少,一旦有了它们的标签后机器学习算法可以对全局数据,尤其是黑样本的全貌会有更准确的了解,才能训练出可以更精准识别风险的模型。 在本次大赛中,我们将给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的有正负标签的支付行为样本构成的测试数据集,数据集均经过严格处理。希望选手们通过机器学习算法和对无标签数据的挖掘在训练集上训练出性能稳定时效性好的模型,能够在测试集上对交易的风险进行精准判断。 2、评估指标: 本赛题采用覆盖率的加权汇总值进行评价。 1)参赛者提供的预测结果文件,与标准结果匹配 2)若给定一个临界值,可以根据预测的概率值算出预测的离散值,再和真实结果比对,计算出混淆矩阵 TP: True Positives FN:False Negatives FP: False Positives TN:True Negatives 根据混淆矩阵的值可以算出FPR(False Positives rate)和TPR(True Positives Rate) TPR = TP / (TP + FN) FPR = FP / (FP + TN) 即给定人工给定一个阈值,可以算出一个FPR和对应的TPR若穷举出多个阈值则可以算出多个FPR和TPR,连线即为ROC曲线 3)计算出ROC曲线: 若穷举出多个阈值则可以算出多个FPR和TPR,连线即为ROC曲线 ROC ROC曲线的横轴为FPR,表示了打扰率,纵轴为TPR,表示了覆盖率。若给定某个FPR,通过ROC曲线会得到某个相应的TPR。 4)定义并计算在不同打扰率下对应的覆盖率,如 TPR1:当FPR等于0.001时的TPR TPR2:当FPR等于0.005时的TPR TPR3:当FPR等于0.01时的TPR 模型成绩 = 0.4 * TPR1 + 0.3 * TPR2 + 0.3 * TPR3 3、数据说明(字段表) atec_anti_fraud_train是训练集,atec_anti_fraud_test_a和atec_anti_fraud_test_b分别对应A、B榜的测试集。 label取值含义:1是有风险,0是无风险,-1是无标签,需要参赛者自行判断处理。 字段说明 解释 id 主键 label 预测标签 date 发生日期 f1 数值型变量 f2 数值型变量 f3 数值型变量 ...... 数值型变量 f295 数值型变量 f296 数值型变量 f297 数值型变量