【从0做项目】Java搜索引擎（6）& 正则表达式鲨疯了&优化正文解析-EW帮帮网

    public String parseContent(File f) {
        //
        try (BufferedReader bufferedReader = new BufferedReader(new FileReader(f), 1024 * 1024)) {//缓冲区设置为1M,默认的为8192字节太小
//            FileReader fileReader = new FileReader(f);//这里是从硬盘读，我们改成提前读好，之后从内存中读效率会更高
            //是否拷贝的开关
            boolean isCopy = true;
            //用StringBuilder来保存结果，
            StringBuilder content = new StringBuilder();
            while (true) {
//                int ret = fileReader.read();//读取文件，一个字符一个字符的读，不是字符返回-1；
                int ret = bufferedReader.read();
                if (ret == -1) {
                    break;//读完了
                }
                //是字符执行以下逻辑
                char c = (char) ret;
                if (isCopy) {
                    if (c == '<') {
                        isCopy = false;
                        continue;
                    }
                    if (c == '\n' || c == '\r') {//换行的两种方式注意回车键
                        c = ' ';//换成空格
                    }
                    content.append(c);//其它字符直接进行拷贝到StringBuilder中
                } else {
                    //直到遇见'>'这个字符我们才打开拷贝的开关
                    if (c == '>') {
                        isCopy = true;
                    }
                }
            }
//            fileReader.close();
            return content.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return "";
    }

三：正则表达式

1：目标

2：简单介绍正则表达

正则表达式，简单理解就是用一些特殊符号来代表我们正文中的指定的内容，并把这个内容替换成我们目标的内容（删掉也可）

（1）简单使用

在java中，String类里有很多方法都支持正则，比如index，replace，replaceAll，split等等

（2）贪婪匹配

可以看到我们的<.*>表示匹配一个可以出现若干次的非换行字符

就是说匹配到第一个<div>后，再遇到第一个</div>不会停下，会继续往后匹配，直到我们最后一个(也就是下面举例的第二个)</div>才会停下

（3）非贪婪匹配

这个就很好，匹配到了一个<div>就停下，再找第二个<div>。贪得无厌，取之有道~~~完美！

四：解析正文回炉重造

了解咱们的正则表达式后，下面我们开始实战！！重新写我们的parseContent

1：实现readFile方法

我们先把整个文件读到String当中，这里的bufferReader.read()，方法读到末尾会返回-1,返回类型为int类型，这里我们强转一下就行

    private String readFile(File f){
        try(BufferedReader bufferedReader = new BufferedReader(new FileReader(f))){//从内存中读
            StringBuilder content = new StringBuilder();
            while(true){
                int ret = bufferedReader.read();
                if(ret == -1){
                    break;
                }
                char c = (char)ret;
                if(c == '\n' || c == '\r'){
                    c = ' ';
                }
                content.append(c);
            }
            return content.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return "";
    }

2：过滤得正文

第一步：我们先把<script>标签和这个标签当中的内容过滤掉

第二步：我们在把其他标签过滤掉第三步

第三步：我们把多个空格合并为一个空格

注：我们的String对象是一个不可变对象，所以要重新整一个String对象。第一步和第二步不能颠倒哈。

    public String parseContentByRegex(File f){
        //1：先把整个文件读到String里面
        String content = readFile(f);
        //2:替换掉script 标签
        content = content.replaceAll("<script.*?>(.*?)</script>","");//匹配非换行字符若干次，最短结果（非贪婪）
        //3:替换掉普通的html标签
        content = content.replaceAll("<.*?>"," ");//2，3顺序不能换，不然先把scrip标签整没了，那script标签中的内容咋整？
        //4：合并多个空格为1个空格
        content = content.replaceAll("\\s+"," ");
        return content;
    }

用\s来匹配多个空白字符，这里我们要防转义再加一个\

【从0做项目】Java搜索引擎（6）& 正则表达式鲨疯了&优化正文解析

文章导读

零：项目结果展示

一：导读&知识点回顾

二：遗留问题

三：正则表达式

1：目标

2：简单介绍正则表达

（1）简单使用

（2）贪婪匹配

（3）非贪婪匹配

四：解析正文回炉重造

1：实现readFile方法

2：过滤得正文

3：优化前后对比

网站公告

今日签到

热门文章

最新发布