|
Re: Chinese(Japanese Korea.....) word segment [message #11192 is a reply to message #11058] |
Sat, 21 June 2003 06:07 |
|
function sp_str($str)
{
$str=preg_replace("/,|\\\\|\.|\;|:|\"|!|~|`|\^|\(|\)|)|(|.|。|:|,|!| ;|“|”|’|‘|[|]|\?|?|、|-|—|\t|\n|'|<|>|\r|\r\n| | |《|》|-|…|【|】|/","",$str);
$n=strlen($str);
$m=0;
$j=0;
$ahz=array();
for($i=0;$i<$n;$i++)
{
if(ord($str[$i])>128)
{
$hz[$m]=$str[$i].$str[$i+1];
if($m>0)
{
$ahz[$j]=$hz[$m-1].$hz[$m];
$j++;
}
$m++;
$i++;
}
else
{
$en.=$str[$i];
}
}
$a_e=preg_split("/[\s,]+/",$en);
$n_e=count($a_e);
$n_a=count($ahz);
for($u=0;$u < $n_e;$u++)
{
if(strlen($a_e[$u])<4||strlen($a_e[$u])>50)
continue;
$ahz[$n_a]=strtolower($a_e[$u]);
$n_a++;
}
return $ahz;
}
|
|
|