Python编程人工智能-自然语言处理

人工智能
后台-插件-广告管理-内容页头部广告(手机)
Python编程人工智能-自然语言处理

TextBlob是一个面向对象的NLP文本处理库,基于NLTK库和pattern库构建,但简化了它们的许多功能。TextBlob可以执行的一些NLP任务,包括:分词—将文本拆分为有意义的单元(即标记),如单词和数字。词性(POS)标注—识别每个单词的词性,例如名词、动词、形容词等。名词短语提取—定位代表名词的单词组,例如“red brickfactory”。情感分析—确定文本是否具有正面、中性或负面的情感。由Google Translate提供跨语言翻译和语言检测支持。变形—把单词复数化或单数化。变形还有其他方面的内容,但不属于TextBlob库的范畴。拼写检查和拼写校正。词干提取—通过删除前缀或后缀把单词缩减为词干。

例如,varieties的词干是varieti。词形还原—类似于词干提取,但它是基于原始词的上下文生成真实的单词。例如,varieties的词形还原是“variety”。词频—确定每个单词在语料库中出现的频率。WordNet集成—用于查找单词的定义、同义词和反义词。去停用词—删除一些常用单词,例如a、an、the、I、we、you等,以分析语料库中的重要单词。n元—语料库中产生的连续单词集合,用于识别经常彼此相邻的单词。其中,很多功能都可以用作更复杂的NLP任务,本节将使用TextBlob和NLTK执行这些NLP任务。

Python编程人工智能-自然语言处理

为了安装textblob,需打开Anaconda Prompt(Windows)、Terminal(macOS / Linux)或shell(Linux),然后执行以下命令:conda install -c conda-forge textblobWindows用户可能需要以管理员身份运行Anaconda Prompt,才能获得正确的软件安装权限。为此,需要在开始菜单中右键单击Anaconda Prompt选项,然后选择More > Run as administrator。

安装完成后,执行以下命令下载TextBlob使用的NLTK语料库:ipython -m textblob.download_corpora其中包括:Brown Corpus(出自布朗大学),用于词性标注。
Punkt,用于英文句子分词。WordNet,用于单词的定义、同义词和反义词。

Averaged Perceptron Tagger,用于词性标注。conll2000,用于组块分析,将文本分成组块,如名词、动词、名词短语等。conll2000的名字的取自“Conference onComputational Natural Language Learning”,conll2000语料库由该会议推出。Movie Reviews,用于情感分析。

Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理

11.2.3 词性标注

词性标注是根据上下文确定单词词性的过程,有8个主要的英语词性—名词、代词、动词、形容词、副词、介词、连词和感叹词(感叹词是表达情感的单词,通常后跟感叹号,如“Yes!”或“Ha!”)。每个词性类别中有很多子类别。

有些词有多重含义,例如,单词“set”和“run”各有几百个含义!如果看一下“run”这个词在dictionary.com中的定义,会发现它可以是动词、名词、形容词或动词短语的一部分。词性标注的一个重要用途是确定单词在其可能的许多含义中的其中一个,这对于帮助计算机“理解”自然语言非常重要。tags属性会返回一个元组列表,每个元组包含一个单词和一个表示其词性的字符串:

Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理 Python编程人工智能-自然语言处理
后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。