CCF BDCI 互联网新闻情感分析 baseline思路(持续更新..)

11.6

B榜第50名进复赛??!掉的不行。。

10.7

上分,靠融合,xlnet、roberta、bert模型融合起来,强强联手,加gru,split_num设4,多折,文本清洗不如不洗,目前线上0.81770003,当前排名top9

9.14

上分上分,血的教训,之前跑了十来版没怎么上分,事实证明!k-fold很重要!!!却也充满了随机性。。目前roberta+5fold线上0.8091,当前排名top34

9.4

xlnet设置maxseqlength512,线上单模0.7999,再voting一下,线上0.8067,当前排名top9

9.2

上分啦,跑了三个模型(两个bert,一个xlnet),voting了一下,线上0.8036,当前排名top11

关于洗数据,暂时的方案是把特殊字符清理掉,还有网址和fontsize那些垃圾文本,但是,洗了不如不洗,同参数同模型,用洗完的数据跑效果更差了,还得继续尝试别的清洗方案。

btw,吐槽一下跑了一个xlnet已经48h过去了,还没跑完。

8.30

改了一波xlnet参数,依旧未清洗数据,现在eval_accuracy为0.8525,线上f1-score为0.7981,当前排名 top 9

效果还不错,有空清洗一波数据,用rawdata目前这效果很满足了

bert跑了一波,线下0.725,线上f1-score 0.7673

8.29

数据量比较小,训练集及测试集仅7000+的三分类任务

将文本几乎未做清洗,直接放入xlnet模型进行三分类任务的finetuning

先跑了一版max_seq_length=128试试

效果不错,线下eval_accuracy为0.8182,线上f1-score 0.74

todo.. 看看大家如何清洗数据,bert调参

原文链接:https://blog.csdn.net/CallMeYunzi/article/details/100138144?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277607816781818782534%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277607816781818782534&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-19-100138144-null-null.nonecase&utm_term=%E6%96%B0%E9%97%BB

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
文明发言,共建和谐米科社区
提交
头像

昵称

取消
昵称表情图片