本文目录一览:
计算机毕业设计的源代码
之前看到很多同学都在找论文的源代码,我收藏了个网站,键盘论文网,上面有很多计算机专业的毕业设计,包含了对应的源代码,你参考下吧
之前的一篇文章,关于php中文分词技术的
摘要:
论文以站内中文全文搜索技术为背景,结合PHP(PHP:Hypertext Preprocessor)在实践领域中对Web应用的性能和内存消耗的要求,提出了一种纯PHP的以预索引字典为基础的轻量高效的站内中文搜索引擎的解决力案。-php中文分词作用
主要内容:通过索引器在数据库中保存生成的站内全文数据的带权重索引和词频权重索引,检索器基于此全文数据可以按多个类别的权重定义计算相关度得到搜索结果,表示器将结果高亮排序返回给搜索用户完成搜索功能。
一个基于海量字典的中文分词器作为中文数据处理的核心,将中英文及数字信息正确的切分并使得索引器可以进行按词汇权重索引,实现丰富灵活的搜索或索引相关功能。
文章针对PHP站内中文搜索技术中最突出的三个方面进行研究。
1)轻量高效的PHP中文搜索框架设计,并统一考虑了检索器和索引器的中文分词问题,使得索引和搜索时处理同样的分词结果。这样,在以较小的代价保证分词器90%以上准确度的同时,对不准确的分词结果具有很好的容忍度,保证了PHP应用的轻量性和可用性。对实践中对性能非常敏感的Web应用的设计开发有一定的借鉴意义。-php中文分词作用
2)对站内数据的搜索结果提出了一种多权重因素的相关度计算的方法,该方法在传统的关键字权重相关度的基础上,结合HTML标记进行权重识别和统计,并通过文档属性和统计数据等类别增加了用户可干涉的相关度权重因素,有力地保障了搜索结果的有效性,提升了用户的站内搜索体验。 -php中文分词作用
3)为了提升中文分词的质量,并同时解决PHP应用在处理海量词典时的性能和内存消耗的问题,本文通过优化的分词匹配算法和创新性地在PHP中文分词中使用B-Tree预索引词典,以数量达53万多个的UTF-8简繁体中文词汇在保证了较好的分词结果的同时保持了中文搜索的轻量性和高效性。并在实践中证明具有良好的可用性和通用性,具有较低的算法时间复杂度。 -php中文分词作用
创新点:
本文结合PHP技术以及搜索引擎、中文分词等理论背景,对PHP领域内实现轻量高效的站内中文搜索提出了行之有效的分析解决方法。
随着Web应用的持续发展和PHP普遍应用、中文信息处理需求的持续增长,本文所论述的方法对PHP相关范围内的中文搜索或索引相关功能都有一定的指导意义。
同时,随着先进的搜索引擎技术模型的演进,本文所做的分析研究为中文站内搜索的普适性应用进行了一项有意义的探索。
你参考下吧
php 一般使用什么中文分词扩展
Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。
Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:code.google.com/p/robbe
一. 关于Robbe:
robbe是建立在friso中文分词上的一个高性能php中文分词扩展。了解friso
1.目前最高版本:friso 1.6.0,【源码无需修改即可在各平台下编译运行】
2.mmseg四种过滤算法,分词准确率达到了98.41%。
3.详细功能,请访问friso官方首页:friso [code.google.com/p/friso]
二. Robbe分词速度:
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.1M/秒
复杂模式:1.4M/秒
(因为php中的大量字符串的复制,性能比friso有些下降)。
php 提取中文后简单分词
$str = "汉字一二3四5六七八,九十六七...";
$s1 = array();//初始化储存第二步结果的数组
//preg_match_all("/[x80-xff]+/", $str, $match);//此为GBK使用
preg_match_all("/[\x{4e00}-\x{9fa5}]{2,}+/u", $str, $match);//此为UTF-8使用
foreach($match[0] as $str1)//循环遍历匹配到的汉字
{
$leng = iconv_strlen($str1, "UTF-8");//计算汉字其长度
for($i = 0; $i $leng-1; $i++)
{
$temp = mb_substr($str1, $i, 2, "UTF-8");//将汉字切割长两个字,得第一步结果
if(!in_array($temp, $s1))//去除重复,得第二步结果
$s1[] = $temp;//得到的汉字存入数组
}
}
//print_r($s1);//第一二步完成,得数组$s1,可打印查看结果
$s2 = file_get_contents("21.txt");//将文件内所有字符读取成一个字符串
$s2 = iconv("", "UTF-8", $s2);//将字符串转码,否则难免有乱码
//echo $s2;//可输出查看文件中的内容
$s = "";//初始化最终结果的变量
foreach($s1 as $j)//遍历汉字对
{
if(preg_match("/".$j."/", $s2))//判断该汉字对是否被包含于文件的文字中
$s .= ("" == $s) ? $j : "\\".$j;//将结果合在$s中
}
echo $s;//得结果,可输出查看或调用
若有疑问,可追问。
注释详细,希望能加分
solr php里中文分词怎么用
可以看手册。
希望我的回答可以帮到你,有什么不懂可以追问。