|
介绍:
这是一门基于Python实践自然语言处理典型应用场景的实战课程。自然语言,作为人类情感思想最基本、最直接、最方便的表达工具,无时无刻不充斥在世界的每个角落。随着信息时代的到来,越来越多的自然语言被以各种方式记录下来,是我们面对最多的数据类型。然而,由于自然语言的多样性、灵活性与广泛性,在过去我们并无合适的处理手段,自然语言处理技术近几十年来的迅猛发展,特别是近年来基于统计和机器学习手段的兴起,为解决这一高难应用领域带来曙光。
自然语言处理是机器学习当前最神秘,最红火,最具难度,也最让引人关注的分支。在搜索引擎,语音识别,情感分析,大批量文档处理,机器翻译,自动应答等各个领域有着前程无可限量的应用。可以试想一台能理解自然语言,并且和人类能用语言纯熟交流的机器,那还能叫机器么?文本挖掘(Text Mining)是数据挖掘以及自然语言处理技术衍生的一个分支,挖掘对象通常是非结构化的文本数据,常见的文本挖掘对象包括网页所产生的BBS留言、博客、微博、新闻跟贴与转贴等。此外,拥有大型呼叫中心或邮件系统的企业,call center或mail积攒下来的大量语言记录也可以通过文本挖掘获得众多具有商业价值的知识。我们用计算机去处理文字,语音,理解语言,这些本来是高等生物人类才能做的事情,使到系统能产生“机器也具有人类同样的智慧”的震惊效果,无需置疑肯定会给顾客和观众留下极其深刻的印象。
Python作为一门主流的编程语言,在自然语言的处理中也是有非常多的应用。那么就让我们一起来学习怎么使用Python进行自然语言处理吧!
课程大纲
第一课:自然语言分析利器——Python入门
第二课:自然语言分析工具包——NLTK入门。编程实战:NLTK包的安装与常用方法介绍
第三课:语料库的获取与词频分析。编程实战:词条频率分布图的绘制
第四课:原始文本资料的读取与处理。编程实战:使用正则表达式实现英文分词
第五课:中文分词的算法与实现。编程实战:结巴分词器的使用
第六课:词条分类与词条属性。编程实战:中英文词性标注
第七课:文本挖掘之文本分类器。编程实战:新闻类别分类.
第八课:文本挖掘之文本聚类。编程实战:百度词条聚类分析
第九课:文本信息提取。编程实战:结构化数据提取系统
第十课:句子语法分析。编程实战:自动语法树构建系统
第十一课:让计算机读懂我们——文本语义分析实现。编程实现:智能问答系统
第十二课:语言数据管理。编程实践:语料库的设计与创建
|
|