0%

Datawhale AI春训营

要不是有打卡的DDL,都不知道要拖到什么时候学呢。那既然打卡的任务是笔记,那这笔记就做成学习记录持续更新吧~😎

0419

今天主要是看了下数据和想一下用什么模型来做。

nc 文件

nc 文件我总感觉我以前接触过,但为什么这次感觉这么不一样呢。😕

这一次的数据每一个文件里的data维度是(1, 24, 8, 11, 11),其中:

  • 第一个维度的 1 大家都说没啥用,但我觉得它的理解就是“这一天”的意思,假如吧好多文件的好多天的拼在一起,这第一个维度不就有意义了么~
  • 第二个维度是一天的 24 小时;
  • 第三个维度是 8 个类别的气象数据;
  • 后面的 $11 \times 11$ 的是这个场站边上的 $11 \times 11$ 个气象数据采集点。

数据融合和处理

三个气象数据源中,NWP_2NWP_1NWP_3 有不一样,NWP_2 里有个是msl 海平面气压,领两个对应的是 sp地面气压。

这三个气象站数据怎么处理?

结合分享会上的分享,我想还是取平均吧,然后如果有异常值(这我还没有取发现)也好直接去掉。NWP_2不一样的那个也直接拼上去和吧。

不同字段的气象数据单位都不一样,这地方应该要归一化之类的操作。

模型选择

因为刚看到数据的时候,见是时间序列的,然后还是预测的,我立刻想到了LSTM

但是 baseline 里用的是 lightgbm,一个机器学习模型,不太熟悉,查了一下是决策树那一系列的。前两天浅浅学了一下决策树,不太明白「一棵树」怎么去做回归任务。这个可以学一下再结合自己数据处理的想法,然后再试试。

既然说是”回归“任务,那我去年做的 SVR 是不是也可以用?

分享会上也有人提到了,觉得这个任务似乎没有特别的”时序“特征,我也这么觉得,感觉就是拿那一刻的气象数据来计算发电功率。如果是这样的话,那就没有必要用LSTM了。

那 $11 \times 11$ 的数据的处理,有人也尝试采用了CNN来做「加权平均」得到不同类别的气象数据的特征。我也有此想法,得到这个数据后,在几个全连接得到预测值。但后面吴嘉丽(第一次分享会上唯一分享的女生,还说自己不吃学计算机的,但她太厉害了)有提到,这 121 个点在真实世界中不一定是「网格」分部的。那我想,这如果用同一个CNN岂不是对不同的场站就不太有用了?还是说CNN它可以自己找到其中最好的计算方式,可以适用不同情况呢?就好像最粗暴的直接取中心店或者取平均值那样,CNN说不定也会找到类似的但更好的呢?

总的来说,模型的选择,现在我的选择就是:

  • 树模型系列
  • SVR
  • CNN + MLP

都可以试试吧。

但初赛没多少时间了啊……😥

其他问题

有关时间的。文件0101是预测第二天的数据,那元旦那天的发电功率岂不是用不上了?就是时间对其的问题。

评测公式里的$0.2$到底啥含义?

我把数据集下载下来的output.zip直接上交,也有0.45呢,看了一下里面,每个文件里也都是一样的值,和那位用CNN之后结果最后输出全部一样上交结果一样。