当前位置:网站首页>nlp 评论分类实现总结
nlp 评论分类实现总结
2022-08-08 23:56:00 【马达马达达】
(持续更新中。。。。。。)
根据评论发现有用的数据,主要目的是
1.版本更新说明
2.根据评论分类,发觉需要改进的问题。首先确认是否是我们产品的问题,然后找出问题的分类:比如性能问题,业务问题,等等。
伪代码
1.加载数据 read_csv() 注意编码格式
2.用jieba将每行分词
3.找出所有语料库dict(最耗时的步骤)
去掉低频词高频词(低高频词对分类没有很高的实际价值)
去特殊字符,标点符号
把语料库的空字符转成 '无字典数据' :
df_comment_word_list[df_comment_word_list.iloc[:,-1]=='']='无字典数据' (以一个java程序员的视角,这行python代码简直是在变魔术)
4.转成词向量,使用不同的聚类算法测试,(推荐Biopython.kcluster,可以使用聚类的不同距离类型),来选择最合适的算法。
https://github.com/biopython/biopython
坑:
FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
if hasattr(X, 'dtype') and np.issubdtype(X.dtype, np.float):https://blog.csdn.net/qq_41185868/article/details/80276847
边栏推荐
猜你喜欢

Risk Control Modeling II: Modeling Scheme formulation

Ubuntu下Docker安装Redis (快速简便)

OSPF实验

并发编程第3篇,volatile原理分析

51nod 2887 抓小偷 平面图最小割转换成最短路

APUE---chap4文件和目录---4.2~4.18(stat/access/umask/chmod/remove/rename)

08 Spark on RDD 依赖关系

NPM配置阿里下载源

TensorFlow learning path deep learning 】 【 5: several methods to prevent a fitting and within DNN TensorFlow implementation

node版本一键切换
随机推荐
SAP ABAP debug的七种方法及错误消息定位
09 Spark on RDD 阶段划分
并发编程第六篇,lock锁接口和其实现
并发编程第11篇,线程池的一些常用用法和使用
Risk Control Modeling 1: Definition of Good and Bad Labels
【深度学习】TensorFlow学习之路二:ANN简介及TensorFlow实现
Codeforces Round #738 (Div. 2) E
并发编程第9篇,Condition
ABP中的数据过滤器
如何学好编程
第四章 SQL与关系数据库基本操作(下)
JS基础知识
牛客多校2 G League of Legends
获取当前时间的前/后某一天的日期
51nod1798 打怪兽
HCIP2---静态路由、动态路由
手机国债账户开户安全吗?
获取一星期前的时间 n-1 为含当天 一周7天 7-1
[Deep Learning] TensorFlow Learning Road One: Introduction to TensorFlow and Implementation of Linear Regression and Logistic Regression
RIP 实验