Java HashSet对txt文本内容去重(统计小说用过的…

2019-10-09 09:35:33来源:博客园 阅读 ()

独享虚拟主机 新品上线,资源独享,建站优先!

Java HashSet对txt文本内容去重(统计小说用过的字或字数)

Java HashSet对txt文本内容去重(统计小说用过的字或字数)

基本思路:

1、字节流读需要去重的txt文本。(展示demo为当前workspace下名为utf-8.txt的文本)

2、对读取到的单个字节判断
(1)如果为字母或特殊字符。操作(2)
(2)添加到HashSet中,如果HashSet.add()返回true代表该字符添加到HashSet失败,即字符未出现过,故对其做写操作。(展示demo写到的是当前workspace下的u.txt)
(3)如果为中文字符,根据txt文本编码取对应字节数(如:utf-8编码三个字节,gbk编码两个字节,展示demo为utf-8编码的txt文本),操作(2)
尤其注意文本编码格式

3、关闭流

如需统计字数即两个HashSet的长度相加即可,本文未写出。

展示demo

        FileInputStream fileInputStream = new FileInputStream("utf8.txt");
        FileOutputStream fileOutputStream=new FileOutputStream("u.txt");
        int len = 0;
        HashSet<Integer> c = new HashSet<>();
        HashSet<String> z = new HashSet<>();
        while ((len = fileInputStream.read()) != -1) {
            if (1 <= len && len <= 127) {//ascii码值判断是否为字母或特殊字符
                if (c.add(len)){
                    //System.out.printf(String.valueOf((char) len));
                    fileOutputStream.write(len);
                }
            } else {
                int first = len;
                int second = fileInputStream.read();
                int third = fileInputStream.read();
                //一个字符对应三个字节
                byte[] bytes = {(byte) first, (byte) second, (byte) third};
                if ( z.add(bytes)){
                    //System.out.print(new String(bytes));
                    fileOutputStream.write(bytes);
                }
            }
        }

仅提供思路,写法不一定是最好的。
有问题请私聊我。


原文链接:https://www.cnblogs.com/Rueben/p/11642494.html
如有疑问请与原作者联系

标签:Qvaluesys编码问题txt

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:解决MybatisGenerator多次运行mapper生成重复内容

下一篇:面试必备之乐观锁与悲观锁