中文分词算法以及相关程序上的分析 - guodongbuding - ITeye博客

`

guodongbuding

浏览: 37197 次
性别:
来自: 北京

最近访客更多访客>>

asklmjc

rucky

bbsanwei

lihaiming

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

夜鸣猪：关注，Flex
Adobe Flex最佳学习路线
夜鸣猪：路过，留个脚印
rails 中文问题

中文分词算法以及相关程序上的分析

博客分类：

杂谈

阅读更多

中文分词的基本算法，以及常见的分词有哪些？

中文分词的基本算法简介如下（网上一大堆）：
一般分为三种
1 基于字符串匹配分词
2 基于语义理解分词
3 基于统计的分词
区别如下

分词方法基于字符串匹配分词基于理解的分词基于统计的分词

歧义识别      差                强          强

新词识别      差                强          强

需要词典      需要            不需要         不需要

需要语料库     否              否             是

需要规则库    否                是             否

算法复杂性     容易             很难             一般

技术成熟度    成熟          不成熟                 成熟

实施难度      容易             很难                   一般

分词准确性     一般            准确               较准

分词速度       快           慢                 一般

分享到：

python django 学习 | 架构：新浪架构师谈微博架构

2010-11-18 18:04
浏览 803
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于逆向匹配的中文分词算法: 基于逆向匹配的中文分词算法，实验结果步骤分析性能比较

汉语文本自动分词算法: ：分析了中文分词词典的机制，提出了一种改进的整词分词字典结构，并针对机械分词算法的特点，将其与概率算法相结合，探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明，该算法具有...

中文分词程序-正向最大匹配算法及逆向最大匹配算法: 运用正向最大匹配算法进行分析，同时也实现了逆向最大匹配，内有分词词典。

IKAnalyzer中文分词.rar: 它是以开源项目Luence为主体的，结合词典分词和文法分析算法的中文分词组件。 IKAnalyzer继承Lucene的Analyzer抽象类，使用IKAnalyzer和Lucene自带的分析器方法一样，将Analyzer测试代码改为IKAnalyzer测试中文分词...

使用HMM模型实现的中文分词程序: 该模型使用了HMM(隐马尔可夫)模型建立中文分词程序，使用了词性标注的思想进行中文分词，更加适合自然语言处理方向的新手进行学习！

中文分词学习版: 本组件采用独有的高效的分词引擎及拆分算法，具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要，本组件同时提供词性及词频标注功能，可根据用户要求，对其拆分后的词组进行词性标注或...

HHM实战：使用HMM进行中文分词1: 通过以上的序列标注，那么我们可以得到这个HMM模型：状态空间为{B,E,M,S}每个字就是模型中的观测，所以观测空间为语料中的所有中文字两个空间完了，还需要三个

tiidf算法程序分析: 对于中文检索需要有中文词库，程序中用到20万的词库。数据结构用了最简单的数组。读取文献，采用每次读取1KB的内容进行分词。分词采用正向最大匹配算法，查找用二分法（词库中词已排序）。

快递地址解析地址分词，算法jar包: 每个单位都有一套自己的地理词库，为了在使用中让程序使用自己标准地址词库可以在初始化时加载自定义词库。完成自定义词库后，不论是地址分词还是地址关联都是依据自定义词库进行计算，完美匹配各单位自定义地址标准...

分词程序 (高效准确),可直接使用: 高效较准确的中英文分词程序(源代码),可直接在VS上使用,并有与其他分析算法的比较分析,好!

淘特站内搜索引擎(C#版) v3.3: 淘特站内搜索引擎是由淘特JSP搜索引擎发展而来，系统基于Lucene.Net核心，通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时，通过读取索引文件查询，避免了传统数据库查询在高并发及...

IKAnalyzer2012: 最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK...

基于Python爬虫+K-means机器学习算法今日热点新闻推荐系统-热点推荐、热词呈现及个性化分析（含全部工程源码）: 1.项目基于网络爬虫技术爬取新闻，进行中文分词和特征提取，形成相似的新闻集，通过K-means算法进行聚集，最终集热点推荐、热词呈现及个性化分析等操作于一体，实现新闻推荐功能。 2.项目运行环境：Python 环境、...

地址分词、地址关联、运单识别: 每个单位都有一套自己的地理词库，为了在使用中让程序使用自己标准地址词库可以在初始化时加载自定义词库。完成自定义词库后，不论是地址分词还是地址关联都是依据自定义词库进行计算，完美匹配各单位自定义地址标准...

黑帽SEO课程跨年教程: 资源名称：黑帽SEO课程跨年教程教程内容：1....中文分词算法11.隐含语义索引原理12.网站优化方案制作14.IIS日志的作用15.蛋糕原理16.网站权重分析1 资源太大，传百度网盘了，链接在附件中，有需要的同学自取。

NLP词汇分析.rar: 1）使用任意分词方法编写算法实现汉语自动分词程序； 2）编写直接调用分词工具(jieba分词，中科院分词等)进行分词的程序; 3）用两种方法，给出至少50个句子的分词结果（以附件形式）； 4）分别计算出两种分词结果的...

几乎最全的中文NLP资源库.zip: 情感分析-文本分类-语料及模型、一个拍照做题程序、世界各国大规模人名库、一个利用有趣中文语料库 qingyun 训练出来的中文聊天机器人、中文聊天机器人seqGAN、省市区镇行政区划数据带拼音标注、教育行业新闻语料库...

基于深度学习的中文评论情感分类和智能客服研究与实现python源码+数据集+报告+使用说明.zip: 3、中文分词加载分词向量，使用gensim加载预训练中文分词embedding，本次实验采用的是知乎的分词向量sgns.zhihu.bigram 4、提取文本关键词 5、建立tokens字典 6、使用tokens字典将“文本”转化为“数字列表”，对...

SQLite学习手册_中文全本: SQLite具有多方面的...分析器、分词器、虚拟机、Btree算法、高整缓存、程序体系结构，通过这些内容可以搞清楚很多计算机科学的经典概念。SQLite的模块化、小型化和简易性，使你可以很容易地专门研究其中的一个问题。

淘特站内搜索引擎(C#版) 3.3: 淘特站内搜索引擎(C#版)基于Lucene.Net核心，通过高效的中文分词算法将数据库中内容进行分析、索引并保存至硬盘中。前台搜索时，通过读取索引文件查询，避免了传统数据库查询在高并发及海量数据下的性能问题。因前台...

Global site tag (gtag.js) - Google Analytics