[NLP]TFIDF算法简介-赛事直播-热门网游活动集合_每日福利更新_玩家互动论坛

本文主要介绍了自然语言处理领域中文本表示的一个重要算法：TF-IDF算法。包括其基本概念，以及简单的代码实现。

TF-IDF概述

什么是TF-IDF？

词频-逆文档频率（Term Frequency-Inverse Document Frequency，TF-IDF）是一种常用于文本处理的统计方法，可以评估一个单词在一份文档中的重要程度。简单来说就是可以用于文档关键词的提取。

TF-IDF的基本思想

看到下面这段文本，我们应该很容易就能看出“篮球”应该是一个关键词，但是我们如何通过算法的形式让计算机也能够辨别呢？

篮球，是以手为中心的身体对抗性体育运动，是奥运会核心比赛项目。

1891年12月21日，由美国马萨诸塞州斯普林菲尔德基督教青年会训练学校体育教师詹姆士·奈史密斯发明。1896年，篮球运动传入中国天津。1904年，圣路易斯奥运会上第1次进行了篮球表演赛。1936年，篮球在柏林奥运会中被列为正式比赛项目，中国也首次派出篮球队参加奥运会篮球项目。1992年，巴塞罗那奥运会开始，职业选手可以参加奥运会篮球比赛。

篮球的最高组织机构为国际篮球联合会，于1932年成立，总部设在瑞士日内瓦。中国最高组织机构为中国篮球协会，于1956年10月成立。

脑海中想到的第一个方法就是对单词出现的次数进行统计，也就是词频。如果一个单词在文中出现的频率很高，那我们是否可以认为这个单词就是文章的关键词呢？

其实不一定，词频很高的单词往往更有可能是一些没有意义的停用词（stopword），例如“我”，“的”，“了”等等。

与此同时，在文章中出现次数很少的单词也不一定是不重要的单词。

因此，TF-IDF的基本思想是：如果某个单词在一篇文章的出现的频率很高，同时在其他文章中很少出现，则认为该单词大概率是一个关键词。

词频（Term Frequency，TF）

词频统计的思路：单词w在文档d中出现的频率。

最简单的计算公式如下：

count(d, w)：单词w在文档d中出现的次数。

count(d, *): 文档d的总词数。

逆文档频率（Inverse Document Frequency，IDF）

逆文档频率的思路：如果一个单词在很多的文档中出现，则意味着该单词的的重要性不高；反之则意味着该单词的重要性很高。主要是考虑了单词的重要性。

单词w的IDF计算方法如下：

N: 语料库中的文档总数。

N(w): 单词w出现在多少个文档中。

文档数量越大，同时单词出现在越少的文档中，IDF值就越大，则说明单词越重要。

上面IDF公式已经可以使用了，但是在一些特殊情况下可能会有一些小问题，比如某一个生僻词在我们的语料库中没有出现过，那么分母N(w)=0，IDF就没有意义了。

所以常用的IDF需要做平滑处理，使得没有在语料库中出现的单词也可以得到一个合适的IDF值。

参考TF-IDF概述，常见的IDF平滑公式之一为：

TF-IDF计算公式

最终，单词w的TF-IDF计算公式如下：

一个单词的TF-IDF值越大，意味着该单词越重要。

TF-IDF计算公式

动手计算TF-IDF

下面通过3个简单的文档，演示一下如何计算TF-IDF。

句子1: 今天上 NLP 课程

句子2: 今天的课程有意思

句子3: 数据课程也有意思

Step1 定义词典

词典的长度 |词典|=9 ：

[今天，上，NLP，课程，的，有，意思，数据，也]

Step2 分别把每个句子用TF-IDF向量表示

句子1:

句子2:

句子3:

调用gensim的TF-IDF模型

先准备好3段文本，作为我们的输入数据：

text1 = """

篮球，是以手为中心的身体对抗性体育运动，是奥运会核心比赛项目。

篮球的最高组织机构为国际篮球联合会，于1932年成立，总部设在瑞士日内瓦。中国最高组织机构为中国篮球协会，于1956年10月成立。

"""

text2 = """

乒乓球，被称为中国的“国球”，是一种世界流行的球类体育项目，包括进攻、对抗和防守。 [1]

乒乓球起源于英国，“乒乓球”一名起源自1900年，因其打击时发出“Ping Pong”的声音而得名。在中国大陆以“乒乓球”作为它的官方名称，中国香港及澳门等地区亦同。1926年1月，在德国柏林举行了一次国际乒乓球赛，共有9个国家的64名男运动员参加了比赛。同年12月，国际乒乓球联合会正式成立，并把在伦敦举行的欧洲锦标赛命名为第一届世界乒乓球锦标赛。

乒乓球组织机构设有国际乒乓球联合会、亚洲乒乓球联盟、中国乒乓球协会。

"""

text3 = """

羽毛球，是一项隔着球网，使用长柄网状球拍击打用羽毛和软木制作而成的一种小型球类的室内运动项目。羽毛球比赛在长方形的场地上进行，场地中间有网相隔，双方运用各种发球、击球和移动等技战术，将球在网上往返对击，以不使球落在本方有效区域内，或使对方击球失误为胜。

羽毛球运动的起源有很多说法，但最认可的是起源于14—15世纪的日本。而现代羽毛球运动是起源于印度，形成于英国。1875年，羽毛球运动正式出现于人们的视野中。1893年，英国的羽毛球俱乐部逐渐发展起来，成立了第一个羽毛球协会，规定了场地的要求和运动的标准。1939年，国际羽联通过了各会员国共同遵守的第一部《羽毛球规则》。2006年，国际羽毛球联合会（IBF）的正式名称更改为羽毛球世界联合会（BWF），即世界羽联。

羽毛球运动的最高组织机构是世界羽联，1934年在伦敦成立。中国最高组织机构是中国羽毛球协会，1958年9月11日在武汉成立。

"""

Step1 文本预处理

采用以下步骤对上面的文本进行预处理：

分词：这里使用了jieba库实现了分词，如果是英文文本可以使用nltk库进行相应的处理。

去除标点符号：如果要求更严格可以通过正则表达式的方式对单词进行校验，英文去除标点符号可以直接使用string.punctuation。

import jieba

# 文本预处理

def get_words(text):

text = text.strip()

# 分词结果

words = list(jieba.cut(text))

# 中文标点符号

punctuation = r"""!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”？，！【】（）、。：；’‘……￥·"""

tokens = [w for w in words if w not in punctuation]

return tokens

经过上面的处理，我们就能得到一段分词好的文本：

image

按照上面的方法，我们对所有3个文本都进行分词处理，组成语料库：

# get text

count1, count2, count3 = get_words(text1), get_words(text2), get_words(text3)

# 语料库

count_list = [count1, count2, count3]

Step2 调用gensim库实现TF-IDF计算

训练模型：

# training by TfidfModel in gensim

dictionary = corpora.Dictionary(count_list)

new_dict = {v:k for k,v in dictionary.token2id.items()}

corpus2 = [dictionary.doc2bow(count) for count in count_list]

tfidf2 = models.TfidfModel(corpus2)

corpus_tfidf = tfidf2[corpus2]

对结果进行输出打印，只打印每个文本中IF-IDF值top3:

# output

print("\nTraining by gensim Tfidf Model.......\n")

for i, doc in enumerate(corpus_tfidf):

print("Top words in document %d"%(i + 1))

sorted_words = sorted(doc, key=lambda x: x[1], reverse=True) #type=list

for num, score in sorted_words[:3]:

print(" Word: %s, TF-IDF: %s"%(new_dict[num], round(score, 5)))

Output:

Training by gensim Tfidf Model.......