博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scikit-learn文本特征提取之TF-IDF
阅读量:4589 次
发布时间:2019-06-09

本文共 736 字,大约阅读时间需要 2 分钟。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。

除了TF-IDF以外,互联网上的搜索引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

TF

TF: Term Frequency, 用于衡量一个词在一个文件中的出现频率。因为每个文档的长度的差别可以很大,因而一个词在某个文档中出现的次数可能远远大于另一个文档,所以词频通常就是一个词出现的次数除以文档的总长度,相当于是做了一次归一化。

TF(t) = (词t在文档中出现的总次数) / (文档的词总数).

IDF

IDF: 逆向文件频率,用于衡量一个词的重要性。计算词频TF的时候,所有的词语都被当做一样重要的,但是某些词,比如”is”, “of”, “that”很可能出现很多很多次,但是可能根本并不重要,因此我们需要减轻在多个文档中都频繁出现的词的权重。 

ID(t) = loge(总文档数/词t出现的文档数)

TfidfVectorizer

sklearn.feature_extraction.text.TfidfVectorizer:可以把一大堆文档转换成TF-IDF特征的矩阵。

TF-IDF的值越大越重要。

转载于:https://www.cnblogs.com/qniguoym/p/7904966.html

你可能感兴趣的文章
VHDL与Verilog硬件描述语言TestBench的编写
查看>>
leetcode 35. 搜索插入位置(Search Insert Position)
查看>>
内存使用和valgrind
查看>>
软件架构设计箴言理解
查看>>
建表过程与字符类型的意义
查看>>
事件绑定之bindEvent()与 unBindEvent()函数
查看>>
万能密码
查看>>
idea运行时默认显示的index.jsp修改方法
查看>>
1084 Broken Keyboard (20 分)
查看>>
winfrom获得鼠标的坐标
查看>>
Ubuntu14.04下安装Hadoop2.5.1 (单机模式)
查看>>
如何完成需求文档
查看>>
【翻译】浏览器渲染Rendering那些事:repaint、reflow/relayout、restyle
查看>>
2019 GDUT Rating Contest I : Problem G. Back and Forth
查看>>
Keras入门——(6)长短期记忆网络LSTM(三)
查看>>
高效算法的常用技术(算法导论)
查看>>
TCP、UDP套接字网络协议
查看>>
STDIN_FILENO与stdin区别(转)
查看>>
页面操作postback后保持滚动条位置
查看>>
nginx动静分离小示例
查看>>