勇敢向前冲

IK分词默认的分词结果是没有标点符号的,看了一番源码。发现直接修改源代码加入标点需要改动多处。

所以想到了一个策略,从外部包一层代码,先让ik分词,,然后检测它的前后是否有遗漏符号,然后将符号加入分词结果中。

当然,大家如果有好的方法,请上交!

下边是源码部分:

public class IKDemo {public static void main(String[] args) throws Exception {String input = "^_^ 你好,ik分词!";Lexeme beforeWord = null;Lexeme currentWord = null;StringBuffer sb = new StringBuffer();IKSegmenter ik = new IKSegmenter(new StringReader(input), true);System.out.println("原句:"+input);while ((currentWord = ik.next()) != null) {sb.append(appendSymbol(input, beforeWord, currentWord));beforeWord = currentWord;}sb.append(appendSymbol(input, beforeWord, currentWord));System.out.println("分词:"+sb.toString().replaceAll(" +", " ").trim());}/** * 补全IK分词遗漏的符号 * @param line * @param before * @param cur * @return */public static String appendSymbol(String line, Lexeme before, Lexeme cur) {String res = "";if (before == null) {// 第一个词前边的符号res = cur.getLexemeText() + " ";int start = cur.getBegin();if (start > 0) {String left =appendWhiteSpace(line.substring(0, start));res = left + res;}} else if (cur == null) {// 最后一个词后边的符号int end = before.getEndPosition();if (end < line.length()) {String right =appendWhiteSpace( line.substring(before.getEndPosition()));res = right;}} else { // 和前一个词之间的符号res = cur.getLexemeText() + " ";int beforeEnd = before.getEndPosition();if (cur.getBegin() > beforeEnd) {String mid = appendWhiteSpace(line.substring(beforeEnd, cur.getBegin()));res = mid + res;}}return res;}/** * 你好吗 -> 你 好 吗 * @param src * @return */public static String appendWhiteSpace(String src){String dst="";for (char c : src.toCharArray()) {dst += c + " ";}return dst;}}

输出结果:

原句:^_^ 你好,ik分词!分词:^ _ ^ 你好 , ik 分 词 !

版权声明:本文为博主原创文章,未经博主允许不得转载。

顺境的美德是节制,逆境的美德是坚韧,这后一种是较为伟大的德性。

勇敢向前冲

相关文章:

你感兴趣的文章:

标签云: