NLTK新闻

2020

NLTK 3.5版本:2020年4月

添加对Python3.8的支持,删除对Python2的支持

2019

NLTK 3.4.5发布日期:2019年8月

修正了downloader中的安全漏洞:Zip-slip漏洞-针对用户将其下载程序配置为使用受损服务器的不太可能的情况https://cve.mitre.org/cgi-bin/cvename.cgi?名称=CVE-2019-14751)

NLTK 3.4.4发布日期:2019年7月

修复绘图函数中的错误(概率.py)添加改进的PanLex-Swadesh语料库阅读器

NLTK 3.4.3发布日期:2019年6月

add text.generate(),quadGramassocMeasures add ssp to tokenizer从averagedperceptron返回最佳标记的置信度make plot methods返回axes对象次要错误修复更新安装说明

NLTK 3.4.1版本:2019年4月

为cfgs添加chomsky_normal_表单add meteor score add minimum edit/levenshtein基于距离的对齐函数允许通过文本访问并置列表。并置_list()支持corenlp服务器选项删除对python 3.4其他小修补程序的支持

2018

NLTK 3.4版本:2018年11月

支持python 3.7、新语言建模包、citem stemmer for german、支持俄罗斯国家语料库,包括pos-tag模型、krippendorf-alpha-inter-rater可靠性测试、全面的代码清理、从jenkins到travis的连续集成

NLTK 3.3发布日期:2018年5月

支持python 3.6,corenlp的新接口,通过sense键支持synset检索,对conll corpus reader进行小修复,对齐发送,修复API和API文档中的小不一致,更好地符合pep8,删除moses tokenizer(不兼容许可证)

2017

NLTK 3.2.5发布日期:2017年9月

Arabic Stemmers(Arlstem,Snowball)、NIST MT评估指标,并增加了NIST国际标记化、Moses标记化、记录俄语标记、修复斯坦福分段器、改进Treebank Detokenizer、Verbnet、Vader、杂项代码和文档清理、实施LGTM建议的修复

NLTK 3.2.4发布日期:2017年5月

删除对python请求库的加载时间依赖,在stanfordsegmenter中添加对阿拉伯语的支持

NLTK 3.2.3发布日期:2017年5月

与斯坦福corenlp web api的接口,改进的lancaster stemmer,改进的treebank tokenizer,支持扩展wordnet的自定义选项卡文件,加速tnt tagger,加速freqdist和conditionalfreqdist,ppdb的mwa子集的新语料库阅读器;测试框架的改进

2016

NLTK 3.2.2发布日期:2016年12月

支持aline、chrf和gleu mt评估指标、俄罗斯pos tagger模型、moses detokenizer、重写porter stemmer和framenet corpus reader、将framenet corpus更新到1.7版、fixes:stanford ousegmer.py、sentitext、conll corpus reader、bleu、naivebayes、krippendorff's alpha、punkt、moses tokenizer、tweettokenizer、toktokenizer;测试框架的改进

NLTK 3.2.1发布日期:2016年4月

支持CCG语义学、斯坦福分词器、维德词典;修复Bleu分数计算、儿童语料库阅读器。

NLTK 3.2发布2016年3月

对python 3.5的修复,现在不再支持python 2.6的代码清理,对panlex的支持,对nltk数据的第三方下载位置的支持,对ribes分数的新支持,bleu平滑,语料库级bleu,对tweettokenizer的改进,对斯坦福API的更新,向conditionalfreqdist添加数学运算符,修复sentiwordnet中的bug用于形容词、文档改进、代码清理、跨平台操作文件路径的一致处理。

2015

NLTK 3.1发布2015年10月

添加对python 3.5的支持,删除对python 2.6的支持,情感分析包和几个语料库,改进的pos tagger,twitter包,多词表达式标记器,斯坦福神经依赖性分析器的包装器,改进的翻译/对齐模块,包括堆栈解码器、skipgram和EveryGram方法、multext-east语料库和mtecorpusReader、小错误修复和增强

NLTK 3.0.5发布2015年9月

新的twitter软件包;对IBM 1-3型、新4型和5型的更新,小错误修复和增强

NLTK 3.0.4发布2015年7月

小错误修复和增强。

NLTK 3.0.3发布2015年6月

panlex swadesh语料库,tgrep树搜索,小错误修复。

NLTK 3.0.2发布2015年3月

senna、bllip、python crfsite接口、基于转换的依赖性解析器、依赖关系图可视化、nkjp文集阅读器、小错误修复和清理。

NLTK 3.0.1发布2015年1月

小包装更新。

2014

NLTK 3.0.0发布2014年9月

小错误。

NLTK 3.0.0B2发布2014年8月

小故障修复和清理。

NLTK图书更新2014年7月

The NLTK book is being updated for Python 3 and NLTK 3 here. The original Python 2 edition is still available here.

NLTK 3.0.0B1发布2014年7月

framenet、sentiwordnet、universal tagset、misc efficiency improvements和bugfixes几个API更改,请参阅https://github.com/nltk/nltk/wiki/porting-your-code-to-nltk-3.0

NLTK 3.0A4发布2014年6月

framenet,universal tagset,misc efficiency improvements and bugfixes some api changes,请参阅https://github.com/nltk/wiki/porting-your-code-to-nltk-3.0了解详细信息,请参阅:https://github.com/nltk/nltk/blob/develop/changelog http://nltk.org/nltk3-alpha/

2013

NLTK图书更新2013年10月

我们正在更新python 3和nltk 3的nltk手册;请参阅http://nltk.org/book3/

NLTK 3.0A2发布2013年7月

其他效率改进和错误修复;有关详细信息,请参阅https://github.com/nltk/nltk/blob/develop/changelog http://nltk.org/nltk3-alpha/

NLTK 3.0A1发布2013年2月

这个版本增加了对NLTK图形用户界面的支持。http://nltk.org/nltk3-alpha/

NLTK 3.0A0发布2013年1月

NLTK3.0的第一个alpha版本现在可用于测试。这个版本的nltk与python 2.6、2.7和python 3一起工作。http://nltk.org/nltk3-alpha/

2012

Python 补助金2012年11月

Python软件基金会正在赞助Mikhail Korobov将NLTK移植到Python 3的工作。http://pyfound.blogspot.hu/2012/11/grants-to-assist-kivy-nltk-in-porting.html

NLTK 2.0.4发布2012年11月

用于删除numpy依赖项的小修复程序。

NLTK 2.0.3发布2012年9月

这个版本包含一些小的改进和错误修复。这是与Python2.5兼容的最终版本。

NLTK 2.0.2发布2012年7月

这个版本包含一些小的改进和错误修复。

NLTK 2.0.1发布2012年5月

NLTK 2的最终版本。

NLTK 2.0.1RC4发布2012年2月

NLTK2的第四个候选版本。

NLTK 2.0.1RC3发布2012年1月

NLTK2的第三个候选版本。

2011

NLTK 2.0.1RC2发布2011年12月

NLTK2的第二个候选版本。有关完整的详细信息,请参阅变更日志。

NLTK开发转移到Github2011年10月

NLTK的开发站点已从GoogleCode迁移到GitHub:http://github.com/nltk

NLTK 2.0.1RC1发布2011年4月

NLTK2的第一个候选版本。有关完整的详细信息,请参阅变更日志。

2010

使用NLTK 2.0食谱进行python文本处理2010年12月

JacobPerkins写了一本250页的食谱,里面有大量使用python和nltk进行文本处理的食谱,由packt出版社出版。一些版税正捐赠给NLTK项目。

NLTK书的日语翻译2010年11月

Masato Hagiwara已经将NLTK的书翻译成日语,另外还有一章是关于日语处理的特殊问题。见http://www.oreilly.co.jp/books/9784873114705/。

NLTK 2.0B9发布2010年7月

2.0决赛前的最后一次测试版。有关完整的详细信息,请参阅变更日志。

Ubuntu 10.4中的NLTK(Lucid Lynx)2010年2月

NLTK现在是Ubuntu最新的LTS版本,这要归功于Robin Munn的努力。请参阅http://packages.ubuntu.com/lucid/python/python-nltk

NLTK 2.0B?释放2009年6月-2010年2月

Bugfix发布,为2.0决赛做准备。有关完整的详细信息,请参阅变更日志。

2009

二次印刷的NLTK书2009年12月

使用python进行自然语言处理的第二次打印将在1月份开始销售。我们利用这个机会做了大约40个小的修正。联机版本已更新。

NLTK出版的书2009年6月

由Steven Bird、Ewan Klein和Edward Loper所著的《用Python进行自然语言处理》,已由O'Reilly Media Inc.出版。它可以通过硬拷贝、电子书、pdf或在线访问方式购买,网址为http://o reilly.com/catalog/9780596516499/。有关卖家和价格的信息,请参阅https://isbndb.com/d/book/natural_language_processing_with_python/prices.html。

0.9.9版发布2009年5月

这个版本在2.0版和NLTK书出版之前完成了NLTK的API。已经有几十个小的增强和错误修复。形式nltk.foo.bar的许多名称现在都可用作nltk.bar。在决策树、配置和工具箱模块中有扩展的功能。新的翻译玩具nltk.misc.babelfish已经添加。新的模块nltk.help提供了对标记集文档的访问。固定的导入,因此NLTK将在不使用Tkinter的情况下构建和安装(用于在服务器上运行)。新数据包括一个最大熵分块模型和更新的语法。nltk contrib包括对coreference包(joseph frazee)和isri阿拉伯语词干分析器(hosam algasaier)的更新。这本书在最终出版前经过了大量的编辑修改。有关完整的详细信息,请参阅变更日志。

0.9.8版发布2009年2月

这个版本包含一个新的现成的标记器、POS标记器和命名的实体标记器。一个新的度量包包括注释器之间的协议得分和各种距离和单词关联度量(TomLippincott和JoelNothman)。有一个新的搭配包(乔尔·诺特曼)。WordNet软件包和浏览器(Steven Bethard,约旦博伊德Graber,Paul Bone)以及语义和推理软件包(Dan Garrette)有许多改进。NLTK语料库集合现在包括pe08解析器评估数据,以及conll 2007 basque和catalan依赖树链接。我们为依赖树链接添加了一个接口。这本书的许多章节都是根据读者的反馈而修订的。有关完整的详细信息,请参阅变更日志。注意,为了一致性和简单性,一些方法名称已经更改。使用旧名称将生成拒绝警告,指示要使用的正确名称。

2008

0.9.7版发布2008年12月

这个版本包含对语料库下载程序的修正(参见说明),使NLTK语料库可以独立于软件发布,并以压缩格式存储。语法、图表解析器、概率分布、句子分段器、文本分类器和RTE分类器都有所改进。这本书还有许多进一步的改进。有关完整的详细信息,请参阅变更日志。

0.9.6版发布2008年12月

这个版本有一个增量语料库下载器(见说明),它可以独立于软件发布NLTK语料库。StevenBethard开发了一个新的WordNet接口(详细信息)。NLTK现在支持依赖性分析,由JasonNarad(由GoogleSummerofcode赞助)开发。DanGarrette对语义和推理包进行了许多增强。频率分布类为制表和绘图提供了新的支持。布朗语料库阅读器有人类可读的类别标签,而不是字母。添加了一个新的包含比较单词表的swadesh语料库。nltk contrib包括用于搜索Treebanks(torsten marek)的Tigersearch实现。这本书的大部分章节都作了实质性的修改。

NLTK项目已移动2008年11月

NLTK项目已经转移到谷歌网站、谷歌代码和谷歌集团。用户和nltk.org域的内容托管在谷歌网站上。NLTK开发的发源地现在是谷歌代码。所有讨论列表都在谷歌群组中。我们在nltk.sourceforge.net上的旧站点将在完成此转换时继续可用。旧版本仍然可以通过我们的SourceForge发布页面获得。我们感谢sourceforge自2001年成立以来主持我们的项目。

0.9.5版发布2008年8月

此版本包含几个低级更改以便于安装,以及对几个NLTK控制项目的更新。一个新的文本模块可以方便地访问新来者的文本语料库。有关完整的详细信息,请参阅变更日志。

0.9.4版发布2008年8月

该版本包含一个由dan garrette提供的扩展语义包,对块、标记、wordnet、树和功能结构模块的改进,mallet接口,ngram语言建模,新的GUI工具(wordnet?浏览器、分块、位置一致性)。数据分发包括新的NPS聊天语料库。nltk contrib包括以下新的包(仍在积极开发中)、nlg包(petro verkhogliad)、依赖性解析器(jason narad)、共引用(joseph frazee)、ccg解析器(graeme gange)和一阶解析定理证明器(dan garrette)。有关完整的详细信息,请参阅变更日志。

NLTK在ACL会议上介绍2008年6月

关于使用NLTK教学课程的论文将在ACL会议上发表:使用自然语言工具包的多学科教学

0.9.3版发布2008年6月

此版本包含改进的WordNet?相似性模块使用预先构建的信息内容文件(包括在语料库分发中)、WEKA、Megam和Prover9/Mace4工具包的新的/改进的接口、对语料库阅读器的Unicode支持、BNC语料库阅读器以及Joel Nothman提供的Punkt句子分段器的重写。NLTK控制器包括一个增量算法的实现,用于生成由Margaret Mitchell贡献的引用表达式。有关完整的详细信息,请参阅变更日志。

NLTK出现在Linuxfest西北2008年4月

肖恩·博森在华盛顿贝灵汉举行的“西北林克斯菲斯特”上介绍了NLTK。他的演讲幻灯片可从以下网址获得:http://semanticbible.com/other/talks/2008/nltk/main.html

谷歌夏季代码中的NLTK2008年4月

谷歌代码之夏将赞助两个NLTK项目。JasonNarad获得了NLTK中依赖性解析器项目的资金(由SebastianRiedel和JasonBaldridge指导)。Petro Verkhogliad获得了NLTK自然语言生成项目的资助(由Robert Dale和Edward Loper指导)。

Python软件基金会采用NLTK为谷歌夏季代码应用2008年3月

Python软件基金会列出了NLTK项目,用于2008谷歌夏季代码项目的赞助。有关详细信息,请参阅http://wiki.python.org/moin/summerofcode。

0.9.2版发布2008年3月

此版本包含一个新的推理模块,链接到Prover9/Mace4定理证明器和模型检验器(Dan Garrette,Ewan Klein)。它还包括verbnet?普罗班克?语料库和语料库读者。路透社语料库阅读器中的一个错误已经修复。NLTK控制包括WordNet上的新工作?浏览器(Jussi Salmela)。有关完整的详细信息,请参阅更改日志

关于NLTK的YouTube视频2008年1月

去年7月在湾区python兴趣小组进行的NLTK演讲的视频已经发布在http://www.youtube.com/watch上了。V=kexw_5-lld0(1小时15分钟)

0.9.1版发布2008年1月

此版本包含对访问文本分类语料库的新支持,以及为主题、流派、问题类型或情感分类的几个语料库。它包括几个新的语料库:问题分类数据(li&roth),路透社21578语料库,电影评论语料库(pang&lee),承认文本继承(rte)挑战。NLTK contrib包括对语义(dan garrette)、可读性评分(thomas jakobson、thomas skardal)和SIL工具箱(greg aumann)的扩展支持。这本书在前几章对读者反馈做出了许多改进。有关完整的详细信息,请参阅变更日志。

2007

NLTK Lite 0.9发布2007年10月

本版本由0.8版大幅度修订和扩展。整个工具包可以通过一个导入语句“import nltk”访问,并且有一个更方便的命名方案。调用不推荐使用的函数会生成帮助程序员更新代码的消息。语料库、标记器和分类器模块已经重新设计。旧NLTK 1.4.3的所有功能现在都包含在NLTK Lite 0.9中。这本书已被修订和扩充。一个新的数据包合并了现有的语料库集合,并包含了用于预先指定语法和预先计算模型的新部分。增加了几个新的语料库,包括葡萄牙语、西班牙语、加泰罗尼亚语和荷兰语的Treebank。提供了Macintosh分发版。有关完整的详细信息,请参阅变更日志。

NLTK Lite 0.9B2发布2007年9月

本版本由0.8版大幅度修订和扩展。整个工具包可以通过一个导入语句“import nltk”访问,许多常见的nlp函数可以直接访问,例如nltk.porterstemmer?,nltk.shiftreduceparser?.语料库、标记器和分类器模块已重新设计。这本书已被修订和扩充,各章已重新编排。NLTK有一个新的数据包,包含了现有的语料库集合,并为预先指定的语法和预先计算的模型添加了新的部分。添加了Floresta葡萄牙语Treebank。0.9b2版本修复了0.9b1的几个小问题,并删除了numpy依赖项。它包括一个新的语料库和语料库读者为巴西葡萄牙语新闻文本(macmorphy?)改进了汉语树库的语料库阅读器,建立了葡萄牙语句子分割的训练模型。

NLTK Lite 0.9B1发布2007年8月

本版本由0.8版大幅度修订和扩展。整个工具包可以通过一个导入语句“import nltk”访问,许多常见的nlp函数可以直接访问,例如nltk.porterstemmer?,nltk.shiftreduceparser?.语料库、标记器和分类器模块已重新设计。这本书已被修订和扩充,各章已重新编排。NLTK有一个新的数据包,包含了现有的语料库集合,并为预先指定的语法和预先计算的模型添加了新的部分。添加了Floresta葡萄牙语Treebank。有关完整的详细信息,请参阅变更日志?.

NLTK在圣保罗会谈2007年8月

StevenBird将于9月的第一周在圣保罗大学的第一所巴西计算语言学学校进行一系列的演讲。

海湾地区的NLTK谈话2007年7月

Steven Bird、Ewan Klein和Edward Loper将于7月12日(星期四)在谷歌(Google)向湾区 Python 兴趣小组展示NLTK。

NLTK Lite 0.8发布2007年7月

本版本由0.7版大幅度修订和扩展。代码现在包括到语料库、chunkers、语法、频率分布的改进接口,以及与wordnet的完全集成?3.0和WordNet?相似性度量。这本书包含了对第一部分(标记化、标记、分块)和第二部分(语法和解析)的实质性修订。NLTK有几个新的语料库,包括交换机电话语音语料库转录样本(Talkbank项目)、CMU问题报告语料库样本、Conll2002 POS+NER数据、患者信息传单语料库样本、印度POS标记数据(Bangla、Hindi、Marathi、Telugu)、莎士比亚XML语料库样本和人类装备的通用声明。HTS语料库,包含300多种语言的文本样本。

语言文档和保护文章中的NLTK特性2007年7月

Stuart Robinson、Greg Aumann和Steven Bird在《语言文档和保护》的首期刊物上发表了一篇文章,介绍了如何使用工具箱和自然语言工具箱管理实地调查数据。本文讨论了几种用于操作字段数据的小型python程序。

ACM十字路口文章中的NLTK特性2007年5月

NitinMadnani的一篇关于用Python进行自然语言处理的文章将出现在ACM学生期刊“ACM十字路口”上。它详细讨论了NLTK,并提供了几个有用的例子,包括一个有趣的免费单词关联程序。

NLTK Lite 0.7.5发布2007年5月

此版本包含WordNet 3.0和WordNet相似性的改进接口、Lancaster Stemmer(Steven Tomcavage提供)和几个新语料库,包括交换机电话语音语料库转录样本(Talkbank项目)、CMU问题报告语料库样本、Conll2002 POS+NER数据、患者信息传单语料库样本。Le和WordNet 3.0数据文件。使用此分发wordnet,不再需要单独安装。

NLTK Lite 0.7.4发布2007年5月

这个版本包含了新的语料库和语料库阅读器,用于印度pos标记数据(bangla、hindi、marathi、telugu)和sinica treebank,以及对《结构化编程、语法和解析》一书第二部分的实质性修订。

NLTK Lite 0.7.3发布2007年4月

此版本包含改进的chunker和pcfg接口、Shakespeare XML语料库示例和语料库阅读器、改进的教程和代码示例格式,以及按难度对问题集进行分类。

NLTK Lite 0.7.2发布2007年3月

此版本包含新的文本分类器(cosine、naivebayes)?,Spearman),Sam Huston,Simple Feature Detectors,带300多种语言文本样本的UDHR语料库和语料库接口;改进的教程(共340页);添加到Contrib领域,包括Kimmo有限状态形态学系统、Lambek微积分系统和语言识别的文本分类器演示。

NLTK Lite 0.7.1发布2007年1月

此版本在WordNet中包含错误修复程序?和HMM模块。

2006

NLTK Lite 0.7发布2006年12月

此版本包含:新的语义解释包(ewan klein)、对SIL工具箱格式(greg aumann)的新支持、新的分块包(包括级联分块(steven bird))、WordNet的新接口?2.1和WordNet相似性度量(David Ormiston Smith),对Penn Treebank格式(Yoav Goldberg)的新支持,使代码库达到48000行;语义解释和分块方面的新章节,以及对其他几章的大量修订,使教科书文档达到280页;

NLTK Lite 0.7B1发布2006年12月

此版本包含:新的语义解释包(Ewan Klein)、对SIL工具箱格式(Greg Aumann)的新支持、新的分块包(包括级联分块)、为WordNet 2.1版更新的WordNet包以及原型WordNet相似性度量(David Ormiston Smith),使代码库达到48000行;大量新的cha语义学解释和分块的提示词,以及对其他几章的大量修订,使教科书文档达到270页;

NLTK Lite 0.6.6发布2006年10月

此版本包含错误修复、对Shoebox文件格式支持的改进,以及对编程和基于特性的语法的扩展教程讨论。

NLTK Lite 0.6.5发布2006年7月

此版本包含对shoebox文件格式支持的改进(由Stuart Robinson和Greg Aumann提供);对hole语义的实现(由Peter Wang提供);对lambda微积分和语义解释模块的改进(由Ewan Klein提供);一个新的语料库(sinica Treebank示例);以及对树的扩展教程讨论、基于特征的语法和硝化、PCFGS和更多练习。

NLTK Lite通过10公里下载里程碑2006年5月

自NLTKLite首次发布以来的九个月内,我们已经下载了10000次。

NLTK Lite 0.6.4发布2006年4月

这个版本包含新的语料库(senseval 2,timit示例)、一个集群、级联chunker和几个经过实质性修改的教程。

2005

NLTK 1.4不再支持2005年12月

主要的开发已经转向了NLTKLite。仍然可以下载最新版本的NLTK;有关说明,请参阅安装页。

NLTK Lite 0.6发布2005年11月

包含错误修复、PDF版本的教程、扩展的野外作业教程、PCFG语法归纳(由Nathan Bodenstab提供)、原型一致性和范例显示工具(由Peter Spiller和Will Hardy提供)。

NLTK Lite 0.5发布2005年9月

包含错误修复、改进的教程、更多项目建议和发音词典。

NLTK Lite 0.4发布2005年9月

包含错误修复、改进的教程、更多项目建议和概率分析器。

NLTK Lite 0.3发布2005年8月

包含错误修复、文档清理、项目建议和图表解析器演示,包括Jean-MarkGawron提供的用于Earley解析的演示。

NLTK Lite 0.2发布2005年7月

包含错误修复、文档清理以及TiagoTresoldi将教程翻译成巴西葡萄牙语的部分内容。

NLTK Lite 0.1发布2005年7月

已经发布了大大简化和简化的NLTK版本

巴西葡萄牙语翻译2005年4月

本网站的顶级页面已由Tiago Tresoldi翻译成巴西葡萄牙语;教程的翻译正在准备中http://hermes.sourceforge.net/nltk-br/

1.4.3版本2005年2月

NLTK 1.4.3已经发布;这是与Python2.4兼容的第一个版本。