UnisKB/apps/common/util/fork.py

import copy
import logging
import re
import traceback
from functools import reduce
from typing import List, Set
from urllib.parse import urljoin, urlparse, ParseResult, urlsplit, urlunparse

import html2text as ht
import requests
from bs4 import BeautifulSoup

requests.packages.urllib3.disable_warnings()


class ChildLink:
    def __init__(self, url, tag):
        self.url = url
        self.tag = copy.deepcopy(tag)


class ForkManage:
    def __init__(self, base_url: str, selector_list: List[str]):
        self.base_url = base_url
        self.selector_list = selector_list

    def fork(self, level: int, exclude_link_url: Set[str], fork_handler):
        self.fork_child(ChildLink(self.base_url, None), self.selector_list, level, exclude_link_url, fork_handler)

    @staticmethod
    def fork_child(child_link: ChildLink, selector_list: List[str], level: int, exclude_link_url: Set[str],
                   fork_handler):
        if level < 0:
            return
        else:
            child_link.url = remove_fragment(child_link.url)
            child_url = child_link.url[:-1] if child_link.url.endswith('/') else child_link.url
        if not exclude_link_url.__contains__(child_url):
            exclude_link_url.add(child_url)
            response = Fork(child_link.url, selector_list).fork()
            fork_handler(child_link, response)
            for child_link in response.child_link_list:
                child_url = child_link.url[:-1] if child_link.url.endswith('/') else child_link.url
                if not exclude_link_url.__contains__(child_url):
                    ForkManage.fork_child(child_link, selector_list, level - 1, exclude_link_url, fork_handler)


def remove_fragment(url: str) -> str:
    parsed_url = urlparse(url)
    modified_url = ParseResult(scheme=parsed_url.scheme, netloc=parsed_url.netloc, path=parsed_url.path,
                               params=parsed_url.params, query=parsed_url.query, fragment=None)
    return urlunparse(modified_url)


class Fork:
    class Response:
        def __init__(self, content: str, child_link_list: List[ChildLink], status, message: str):
            self.content = content
            self.child_link_list = child_link_list
            self.status = status
            self.message = message

        @staticmethod
        def success(html_content: str, child_link_list: List[ChildLink]):
            return Fork.Response(html_content, child_link_list, 200, '')

        @staticmethod
        def error(message: str):
            return Fork.Response('', [], 500, message)

    def __init__(self, base_fork_url: str, selector_list: List[str]):
        base_fork_url = remove_fragment(base_fork_url)
        self.base_fork_url = urljoin(base_fork_url if base_fork_url.endswith("/") else base_fork_url + '/', '.')
        parsed = urlsplit(base_fork_url)
        query = parsed.query
        self.base_fork_url = self.base_fork_url[:-1]
        if query is not None and len(query) > 0:
            self.base_fork_url = self.base_fork_url + '?' + query
        self.selector_list = [selector for selector in selector_list if selector is not None and len(selector) > 0]
        self.urlparse = urlparse(self.base_fork_url)
        self.base_url = ParseResult(scheme=self.urlparse.scheme, netloc=self.urlparse.netloc, path='', params='',
                                    query='',
                                    fragment='').geturl()

    def get_child_link_list(self, bf: BeautifulSoup):
        pattern = "^((?!(http:|https:|tel:/|#|mailto:|javascript:))|" + self.base_fork_url + "|/).*"
        link_list = bf.find_all(name='a', href=re.compile(pattern))
        result = [ChildLink(link.get('href'), link) if link.get('href').startswith(self.base_url) else ChildLink(
            self.base_url + link.get('href'), link) for link in link_list]
        result = [row for row in result if row.url.startswith(self.base_fork_url)]
        return result

    def get_content_html(self, bf: BeautifulSoup):
        if self.selector_list is None or len(self.selector_list) == 0:
            return str(bf)
        params = reduce(lambda x, y: {**x, **y},
                        [{'class_': selector.replace('.', '')} if selector.startswith('.') else
                         {'id': selector.replace("#", "")} if selector.startswith("#") else {'name': selector} for
                         selector in
                         self.selector_list], {})
        f = bf.find_all(**params)
        return "\n".join([str(row) for row in f])

    @staticmethod
    def reset_url(tag, field, base_fork_url):
        field_value: str = tag[field]
        if field_value.startswith("/"):
            result = urlparse(base_fork_url)
            result_url = ParseResult(scheme=result.scheme, netloc=result.netloc, path=field_value, params='', query='',
                                     fragment='').geturl()
        else:
            result_url = urljoin(
                base_fork_url + '/' + (field_value if field_value.endswith('/') else field_value + '/'),
                ".")
        result_url = result_url[:-1] if result_url.endswith('/') else result_url
        tag[field] = result_url

    def reset_beautiful_soup(self, bf: BeautifulSoup):
        reset_config_list = [
            {
                'field': 'href',
            },
            {
                'field': 'src',
            }
        ]
        for reset_config in reset_config_list:
            field = reset_config.get('field')
            tag_list = bf.find_all(**{field: re.compile('^(?!(http:|https:|tel:/|#|mailto:|javascript:)).*')})
            for tag in tag_list:
                self.reset_url(tag, field, self.base_fork_url)
        return bf

    @staticmethod
    def get_beautiful_soup(response):
        encoding = response.encoding if response.encoding is not None and response.encoding != 'ISO-8859-1' else response.apparent_encoding
        html_content = response.content.decode(encoding)
        beautiful_soup = BeautifulSoup(html_content, "html.parser")
        meta_list = beautiful_soup.find_all('meta')
        charset_list = [meta.attrs.get('charset') for meta in meta_list if
                        meta.attrs is not None and 'charset' in meta.attrs]
        if len(charset_list) > 0:
            charset = charset_list[0]
            if charset != encoding:
                html_content = response.content.decode(charset)
                return BeautifulSoup(html_content, "html.parser")
        return beautiful_soup

    def fork(self):
        try:

            headers = {
                'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
            }

            logging.getLogger("max_kb").info(f'fork:{self.base_fork_url}')
            response = requests.get(self.base_fork_url, verify=False, headers=headers)
            if response.status_code != 200:
                logging.getLogger("max_kb").error(f"url: {self.base_fork_url} code:{response.status_code}")
                return Fork.Response.error(f"url: {self.base_fork_url} code:{response.status_code}")
            bf = self.get_beautiful_soup(response)
        except Exception as e:
            logging.getLogger("max_kb_error").error(f'{str(e)}:{traceback.format_exc()}')
            return Fork.Response.error(str(e))
        bf = self.reset_beautiful_soup(bf)
        link_list = self.get_child_link_list(bf)
        content = self.get_content_html(bf)
        r = ht.html2text(content)
        return Fork.Response.success(r, link_list)


def handler(base_url, response: Fork.Response):
    print(base_url.url, base_url.tag.text if base_url.tag else None, response.content)

# ForkManage('https://bbs.fit2cloud.com/c/de/6', ['.md-content']).fork(3, set(), handler)
feat: web数据集 2023-12-29 10:02:23 +00:00			`import copy`
			`import logging`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`import re`
feat: web数据集 2023-12-29 10:02:23 +00:00			`import traceback`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`from functools import reduce`
			`from typing import List, Set`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`from urllib.parse import urljoin, urlparse, ParseResult, urlsplit, urlunparse`
feat: 去除无用代码 2024-03-21 06:49:21 +00:00
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`import html2text as ht`
feat: 去除无用代码 2024-03-21 06:49:21 +00:00			`import requests`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`from bs4 import BeautifulSoup`
fix: 【知识库】知识库设置，web站点地址格式错误，保存报错 2024-03-04 03:01:58 +00:00
fix: 获取网络文档去掉ssl校验 2024-01-25 07:25:07 +00:00			`requests.packages.urllib3.disable_warnings()`

feat: web数据集 2023-12-29 10:02:23 +00:00
			`class ChildLink:`
			`def __init__(self, url, tag):`
			`self.url = url`
			`self.tag = copy.deepcopy(tag)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00

			`class ForkManage:`
			`def __init__(self, base_url: str, selector_list: List[str]):`
			`self.base_url = base_url`
			`self.selector_list = selector_list`

			`def fork(self, level: int, exclude_link_url: Set[str], fork_handler):`
feat: web数据集 2023-12-29 10:02:23 +00:00			`self.fork_child(ChildLink(self.base_url, None), self.selector_list, level, exclude_link_url, fork_handler)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00
			`@staticmethod`
feat: web数据集 2023-12-29 10:02:23 +00:00			`def fork_child(child_link: ChildLink, selector_list: List[str], level: int, exclude_link_url: Set[str],`
			`fork_handler):`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`if level < 0:`
			`return`
feat: web数据集 2023-12-29 10:02:23 +00:00			`else:`
fix: 优化同步网页逻辑 2024-04-10 10:43:43 +00:00			`child_link.url = remove_fragment(child_link.url)`
feat: web数据集 2023-12-29 10:02:23 +00:00			`child_url = child_link.url[:-1] if child_link.url.endswith('/') else child_link.url`
fix: 优化同步网页逻辑 2024-04-10 10:43:43 +00:00			`if not exclude_link_url.__contains__(child_url):`
feat: web数据集 2023-12-29 10:02:23 +00:00			`exclude_link_url.add(child_url)`
fix: 优化同步网页逻辑 2024-04-10 10:43:43 +00:00			`response = Fork(child_link.url, selector_list).fork()`
			`fork_handler(child_link, response)`
			`for child_link in response.child_link_list:`
			`child_url = child_link.url[:-1] if child_link.url.endswith('/') else child_link.url`
			`if not exclude_link_url.__contains__(child_url):`
			`ForkManage.fork_child(child_link, selector_list, level - 1, exclude_link_url, fork_handler)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00

fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`def remove_fragment(url: str) -> str:`
			`parsed_url = urlparse(url)`
			`modified_url = ParseResult(scheme=parsed_url.scheme, netloc=parsed_url.netloc, path=parsed_url.path,`
			`params=parsed_url.params, query=parsed_url.query, fragment=None)`
			`return urlunparse(modified_url)`


feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`class Fork:`
			`class Response:`
feat: web数据集 2023-12-29 10:02:23 +00:00			`def __init__(self, content: str, child_link_list: List[ChildLink], status, message: str):`
			`self.content = content`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`self.child_link_list = child_link_list`
			`self.status = status`
			`self.message = message`

			`@staticmethod`
feat: web数据集 2023-12-29 10:02:23 +00:00			`def success(html_content: str, child_link_list: List[ChildLink]):`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`return Fork.Response(html_content, child_link_list, 200, '')`

			`@staticmethod`
			`def error(message: str):`
			`return Fork.Response('', [], 500, message)`

			`def __init__(self, base_fork_url: str, selector_list: List[str]):`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`base_fork_url = remove_fragment(base_fork_url)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`self.base_fork_url = urljoin(base_fork_url if base_fork_url.endswith("/") else base_fork_url + '/', '.')`
fix: 同步知识库,无法获取内容 2024-02-29 07:14:53 +00:00			`parsed = urlsplit(base_fork_url)`
			`query = parsed.query`
feat: web数据集 2023-12-29 10:02:23 +00:00			`self.base_fork_url = self.base_fork_url[:-1]`
fix: 同步知识库,无法获取内容 2024-02-29 07:14:53 +00:00			`if query is not None and len(query) > 0:`
			`self.base_fork_url = self.base_fork_url + '?' + query`
fix: 同步web站点选择器不填无法获取内容 2024-01-24 03:23:16 +00:00			`self.selector_list = [selector for selector in selector_list if selector is not None and len(selector) > 0]`
feat: web数据集 2023-12-29 10:02:23 +00:00			`self.urlparse = urlparse(self.base_fork_url)`
			`self.base_url = ParseResult(scheme=self.urlparse.scheme, netloc=self.urlparse.netloc, path='', params='',`
			`query='',`
			`fragment='').geturl()`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00
			`def get_child_link_list(self, bf: BeautifulSoup):`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`pattern = "^((?!(http:\|https:\|tel:/\|#\|mailto:\|javascript:))\|" + self.base_fork_url + "\|/).*"`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`link_list = bf.find_all(name='a', href=re.compile(pattern))`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`result = [ChildLink(link.get('href'), link) if link.get('href').startswith(self.base_url) else ChildLink(`
			`self.base_url + link.get('href'), link) for link in link_list]`
			`result = [row for row in result if row.url.startswith(self.base_fork_url)]`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`return result`

			`def get_content_html(self, bf: BeautifulSoup):`
			`if self.selector_list is None or len(self.selector_list) == 0:`
			`return str(bf)`
			`params = reduce(lambda x, y: {x, y},`
fix: 同步web站点知识库解析md 未按照标签解析 2024-02-29 04:02:29 +00:00			`[{'class_': selector.replace('.', '')} if selector.startswith('.') else`
			`{'id': selector.replace("#", "")} if selector.startswith("#") else {'name': selector} for`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`selector in`
			`self.selector_list], {})`
			`f = bf.find_all(**params)`
			`return "\n".join([str(row) for row in f])`

feat: web数据集 2023-12-29 10:02:23 +00:00			`@staticmethod`
			`def reset_url(tag, field, base_fork_url):`
			`field_value: str = tag[field]`
			`if field_value.startswith("/"):`
			`result = urlparse(base_fork_url)`
			`result_url = ParseResult(scheme=result.scheme, netloc=result.netloc, path=field_value, params='', query='',`
			`fragment='').geturl()`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`else:`
feat: web数据集 2023-12-29 10:02:23 +00:00			`result_url = urljoin(`
			`base_fork_url + '/' + (field_value if field_value.endswith('/') else field_value + '/'),`
			`".")`
			`result_url = result_url[:-1] if result_url.endswith('/') else result_url`
			`tag[field] = result_url`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00
			`def reset_beautiful_soup(self, bf: BeautifulSoup):`
feat: web数据集 2023-12-29 10:02:23 +00:00			`reset_config_list = [`
			`{`
			`'field': 'href',`
			`},`
			`{`
			`'field': 'src',`
			`}`
			`]`
			`for reset_config in reset_config_list:`
			`field = reset_config.get('field')`
			`tag_list = bf.find_all(*{field: re.compile('^(?!(http:\|https:\|tel:/\|#\|mailto:\|javascript:)).')})`
			`for tag in tag_list:`
			`self.reset_url(tag, field, self.base_fork_url)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`return bf`

			`@staticmethod`
			`def get_beautiful_soup(response):`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`encoding = response.encoding if response.encoding is not None and response.encoding != 'ISO-8859-1' else response.apparent_encoding`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`html_content = response.content.decode(encoding)`
fix: 修改已知bug(#30) * fix: 刷新公共访问链接后,客户端统计重置 * fix: 导出未提交的sql文件 * fix: 创建 MaxKB 在线文档的知识库，只能获取根地址数据，子地址数据无法获取 2024-04-02 11:32:04 +00:00			`beautiful_soup = BeautifulSoup(html_content, "html.parser")`
			`meta_list = beautiful_soup.find_all('meta')`
			`charset_list = [meta.attrs.get('charset') for meta in meta_list if`
			`meta.attrs is not None and 'charset' in meta.attrs]`
			`if len(charset_list) > 0:`
			`charset = charset_list[0]`
			`if charset != encoding:`
			`html_content = response.content.decode(charset)`
			`return BeautifulSoup(html_content, "html.parser")`
			`return beautiful_soup`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00
			`def fork(self):`
			`try:`
fix: 【知识库】知识库使用tagname选择器，有部分页面没有导入数据 2024-03-01 03:14:32 +00:00
			`headers = {`
			`'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'`
			`}`

feat: web数据集 2023-12-29 10:02:23 +00:00			`logging.getLogger("max_kb").info(f'fork:{self.base_fork_url}')`
fix: 【知识库】知识库使用tagname选择器，有部分页面没有导入数据 2024-03-01 03:14:32 +00:00			`response = requests.get(self.base_fork_url, verify=False, headers=headers)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`if response.status_code != 200:`
feat: web数据集 2023-12-29 10:02:23 +00:00			`logging.getLogger("max_kb").error(f"url: {self.base_fork_url} code:{response.status_code}")`
			`return Fork.Response.error(f"url: {self.base_fork_url} code:{response.status_code}")`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`bf = self.get_beautiful_soup(response)`
			`except Exception as e:`
feat: web数据集 2023-12-29 10:02:23 +00:00			`logging.getLogger("max_kb_error").error(f'{str(e)}:{traceback.format_exc()}')`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00			`return Fork.Response.error(str(e))`
			`bf = self.reset_beautiful_soup(bf)`
			`link_list = self.get_child_link_list(bf)`
			`content = self.get_content_html(bf)`
			`r = ht.html2text(content)`
			`return Fork.Response.success(r, link_list)`


			`def handler(base_url, response: Fork.Response):`
feat: web数据集 2023-12-29 10:02:23 +00:00			`print(base_url.url, base_url.tag.text if base_url.tag else None, response.content)`
feat: url获取文档数据工具 2023-12-27 10:33:23 +00:00
feat: web数据集 2023-12-29 10:02:23 +00:00			`# ForkManage('https://bbs.fit2cloud.com/c/de/6', ['.md-content']).fork(3, set(), handler)`