【NLP-新闻文本分类】处理新闻文本分类所有开源解决方案汇总

1.1 简介

(1)环境

tensorflow 1.x pytorch 

1.2 textcnn

1.3 bert

使用 Bert 模型的代码。讲解文章分为 3 篇:

rank1第一名分享

2.1 简介

(1)环境

2.2 文件说明

  • EDA:用于探索性数据分析。
  • data_utils:用于预训练语料的构建。
  • pretraining:用于Bert的预训练。
  • train:用于新闻文本分类模型的训练。
  • pred:用于新闻文本分类模型的预测。

3.1 简介

(1)环境

Keras==2.3.1 tensorflow==1.15.0 

3.2 模型得分

Rank4分享

4.1 简介

(1)环境

pytorch sklearn gensim Tensorflow2.0+ xgboost lightgbm tqdm huggingface/transformers 

4.2 模型得分

融合测试
基本上textbigru_cv+bertbilstmattn (无pl) 此时也有0.969的成绩 加上pl其实就比较接近0.97了 后来我尝试了加上几个bert系列(后悔没有加上pl,否则可能还会提高) 结合tfidf做了一下对应lr, lightgbm, xgboost的stacking-B榜分数达到0.9702 总结: 其实我在线下验证集上达到了0.971, 但是我觉得可能B榜的类别分布与训练集不一样,所以我只有0.9702。

原文链接:https://blog.csdn.net/weixin_43935696/article/details/113899070?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277607816781435454365%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277607816781435454365&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-8-113899070-null-null.nonecase&utm_term=%E6%96%B0%E9%97%BB

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
文明发言,共建和谐米科社区
提交
头像

昵称

取消
昵称表情图片

    暂无评论内容