UnisKB/apps/embedding/vector/base_vector.py

# coding=utf-8
"""
    @project: maxkb
    @Author：虎
    @file： base_vector.py
    @date：2023/10/18 19:16
    @desc:
"""
import threading
from abc import ABC, abstractmethod
from functools import reduce
from typing import List, Dict

from langchain_core.embeddings import Embeddings

from common.chunk import text_to_chunk
from common.util.common import sub_array
from embedding.models import SourceType, SearchMode

lock = threading.Lock()


def chunk_data(data: Dict):
    if str(data.get('source_type')) == SourceType.PARAGRAPH.value:
        text = data.get('text')
        chunk_list = text_to_chunk(text)
        return [{**data, 'text': chunk} for chunk in chunk_list]
    return [data]


def chunk_data_list(data_list: List[Dict]):
    result = [chunk_data(data) for data in data_list]
    return reduce(lambda x, y: [*x, *y], result, [])


class BaseVectorStore(ABC):
    vector_exists = False

    @abstractmethod
    def vector_is_create(self) -> bool:
        """
        判断向量库是否创建
        :return: 是否创建向量库
        """
        pass

    @abstractmethod
    def vector_create(self):
        """
        创建 向量库
        :return:
        """
        pass

    def save_pre_handler(self):
        """
        插入前置处理器 主要是判断向量库是否创建
        :return: True
        """
        if not BaseVectorStore.vector_exists:
            if not self.vector_is_create():
                self.vector_create()
                BaseVectorStore.vector_exists = True
        return True

    def save(self, text, source_type: SourceType, dataset_id: str, document_id: str, paragraph_id: str, source_id: str,
             is_active: bool,
             embedding: Embeddings):
        """
        插入向量数据
        :param source_id:  资源id
        :param dataset_id: 知识库id
        :param text: 文本
        :param source_type: 资源类型
        :param document_id: 文档id
        :param is_active:   是否禁用
        :param embedding:   向量化处理器
        :param paragraph_id 段落id
        :return:  bool
        """
        self.save_pre_handler()
        data = {'document_id': document_id, 'paragraph_id': paragraph_id, 'dataset_id': dataset_id,
                'is_active': is_active, 'source_id': source_id, 'source_type': source_type, 'text': text}
        chunk_list = chunk_data(data)
        result = sub_array(chunk_list)
        for child_array in result:
            self._batch_save(child_array, embedding, lambda: True)

    def batch_save(self, data_list: List[Dict], embedding: Embeddings, is_save_function):
        # 获取锁
        lock.acquire()
        try:
            """
            批量插入
            :param data_list: 数据列表
            :param embedding: 向量化处理器
            :return: bool
            """
            self.save_pre_handler()
            chunk_list = chunk_data_list(data_list)
            result = sub_array(chunk_list)
            for child_array in result:
                if is_save_function():
                    self._batch_save(child_array, embedding, is_save_function)
                else:
                    break
        finally:
            # 释放锁
            lock.release()
        return True

    @abstractmethod
    def _save(self, text, source_type: SourceType, dataset_id: str, document_id: str, paragraph_id: str, source_id: str,
              is_active: bool,
              embedding: Embeddings):
        pass

    @abstractmethod
    def _batch_save(self, text_list: List[Dict], embedding: Embeddings, is_save_function):
        pass

    def search(self, query_text, dataset_id_list: list[str], exclude_document_id_list: list[str],
               exclude_paragraph_list: list[str],
               is_active: bool,
               embedding: Embeddings):
        if dataset_id_list is None or len(dataset_id_list) == 0:
            return []
        embedding_query = embedding.embed_query(query_text)
        result = self.query(embedding_query, dataset_id_list, exclude_document_id_list, exclude_paragraph_list,
                            is_active, 1, 3, 0.65)
        return result[0]

    @abstractmethod
    def query(self, query_text: str, query_embedding: List[float], dataset_id_list: list[str],
              exclude_document_id_list: list[str],
              exclude_paragraph_list: list[str], is_active: bool, top_n: int, similarity: float,
              search_mode: SearchMode):
        pass

    @abstractmethod
    def hit_test(self, query_text, dataset_id: list[str], exclude_document_id_list: list[str], top_number: int,
                 similarity: float,
                 search_mode: SearchMode,
                 embedding: Embeddings):
        pass

    @abstractmethod
    def update_by_paragraph_id(self, paragraph_id: str, instance: Dict):
        pass

    @abstractmethod
    def update_by_paragraph_ids(self, paragraph_ids: str, instance: Dict):
        pass

    @abstractmethod
    def update_by_source_id(self, source_id: str, instance: Dict):
        pass

    @abstractmethod
    def update_by_source_ids(self, source_ids: List[str], instance: Dict):
        pass

    @abstractmethod
    def delete_by_dataset_id(self, dataset_id: str):
        pass

    @abstractmethod
    def delete_by_document_id(self, document_id: str):
        pass

    @abstractmethod
    def delete_by_document_id_list(self, document_id_list: List[str]):
        pass

    @abstractmethod
    def delete_by_dataset_id_list(self, dataset_id_list: List[str]):
        pass

    @abstractmethod
    def delete_by_source_id(self, source_id: str, source_type: str):
        pass

    @abstractmethod
    def delete_by_source_ids(self, source_ids: List[str], source_type: str):
        pass

    @abstractmethod
    def delete_by_paragraph_id(self, paragraph_id: str):
        pass

    @abstractmethod
    def delete_by_paragraph_ids(self, paragraph_ids: List[str]):
        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								# coding=utf-8
 								"""
 								    @project: maxkb
 								    @Author：虎
 								    @file： base_vector.py
 								    @date：2023/10/18 19:16
 								    @desc:
 								"""
-												feat: 日志打印,嵌入脚本

											
										
										
											2023-12-21 04:16:39 +00:00
+								import threading
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								from abc import ABC, abstractmethod
-												feat: 细分段落chunk增加召回命中率 (#841)


											
										
										
											2024-07-23 10:19:41 +00:00
+								from functools import reduce
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								from typing import List, Dict
-												feat: 支持向量模型

											
										
										
											2024-07-17 09:01:57 +00:00
+								from langchain_core.embeddings import Embeddings
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
-												feat: 细分段落chunk增加召回命中率 (#841)


											
										
										
											2024-07-23 10:19:41 +00:00
+								from common.chunk import text_to_chunk
-												fix: 向量化的时候限制最大值

											
										
										
											2023-12-15 06:22:19 +00:00
+								from common.util.common import sub_array
-												 feat: 增加全文检索和混合检索方式


											
										
										
											2024-04-22 03:21:24 +00:00
+								from embedding.models import SourceType, SearchMode
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
-												feat: 日志打印,嵌入脚本

											
										
										
											2023-12-21 04:16:39 +00:00
+								lock = threading.Lock()
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
-												feat: 细分段落chunk增加召回命中率 (#841)


											
										
										
											2024-07-23 10:19:41 +00:00
+								def chunk_data(data: Dict):
 								    if str(data.get('source_type')) == SourceType.PARAGRAPH.value:
 								        text = data.get('text')
 								        chunk_list = text_to_chunk(text)
 								        return [{**data, 'text': chunk} for chunk in chunk_list]
 								    return [data]
 								def chunk_data_list(data_list: List[Dict]):
 								    result = [chunk_data(data) for data in data_list]
 								    return reduce(lambda x, y: [*x, *y], result, [])
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								class BaseVectorStore(ABC):
 								    vector_exists = False
 								    @abstractmethod
 								    def vector_is_create(self) -> bool:
 								        """
 								        判断向量库是否创建
 								        :return: 是否创建向量库
 								        """
 								        pass
 								    @abstractmethod
 								    def vector_create(self):
 								        """
 								        创建 向量库
 								        :return:
 								        """
 								        pass
 								    def save_pre_handler(self):
 								        """
 								        插入前置处理器 主要是判断向量库是否创建
 								        :return: True
 								        """
 								        if not BaseVectorStore.vector_exists:
 								            if not self.vector_is_create():
 								                self.vector_create()
 								                BaseVectorStore.vector_exists = True
 								        return True
 								    def save(self, text, source_type: SourceType, dataset_id: str, document_id: str, paragraph_id: str, source_id: str,
 								             is_active: bool,
-												feat: 支持向量模型

											
										
										
											2024-07-17 09:01:57 +00:00
+								             embedding: Embeddings):
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        """
 								        插入向量数据
 								        :param source_id:  资源id
-												feat:

											
										
										
											2023-12-18 03:32:29 +00:00
+								        :param dataset_id: 知识库id
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        :param text: 文本
 								        :param source_type: 资源类型
 								        :param document_id: 文档id
 								        :param is_active:   是否禁用
 								        :param embedding:   向量化处理器
 								        :param paragraph_id 段落id
 								        :return:  bool
 								        """
-												feat: 问答时,同步存入日志,优化向量化执行逻辑,修改model下载目录

											
										
										
											2023-12-21 08:55:11 +00:00
+								        self.save_pre_handler()
-												feat: 细分段落chunk增加召回命中率 (#841)


											
										
										
											2024-07-23 10:19:41 +00:00
+								        data = {'document_id': document_id, 'paragraph_id': paragraph_id, 'dataset_id': dataset_id,
 								                'is_active': is_active, 'source_id': source_id, 'source_type': source_type, 'text': text}
 								        chunk_list = chunk_data(data)
 								        result = sub_array(chunk_list)
 								        for child_array in result:
-												fix: 修复索引中的文档,知识库删除后依然再执行 (#934)


											
										
										
											2024-08-06 08:22:53 +00:00
+								            self._batch_save(child_array, embedding, lambda: True)
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
-												fix: 修复索引中的文档,知识库删除后依然再执行 (#934)


											
										
										
											2024-08-06 08:22:53 +00:00
+								    def batch_save(self, data_list: List[Dict], embedding: Embeddings, is_save_function):
-												feat: 日志打印,嵌入脚本

											
										
										
											2023-12-21 04:16:39 +00:00
+								        # 获取锁
 								        lock.acquire()
 								        try:
 								            """
 								            批量插入
 								            :param data_list: 数据列表
 								            :param embedding: 向量化处理器
 								            :return: bool
 								            """
 								            self.save_pre_handler()
-												feat: 细分段落chunk增加召回命中率 (#841)


											
										
										
											2024-07-23 10:19:41 +00:00
+								            chunk_list = chunk_data_list(data_list)
 								            result = sub_array(chunk_list)
-												feat: 日志打印,嵌入脚本

											
										
										
											2023-12-21 04:16:39 +00:00
+								            for child_array in result:
-												fix: 修复索引中的文档,知识库删除后依然再执行 (#934)


											
										
										
											2024-08-06 08:22:53 +00:00
+								                if is_save_function():
 								                    self._batch_save(child_array, embedding, is_save_function)
 								                else:
 								                    break
-												feat: 日志打印,嵌入脚本

											
										
										
											2023-12-21 04:16:39 +00:00
+								        finally:
 								            # 释放锁
 								            lock.release()
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        return True
 								    @abstractmethod
 								    def _save(self, text, source_type: SourceType, dataset_id: str, document_id: str, paragraph_id: str, source_id: str,
 								              is_active: bool,
-												feat: 支持向量模型

											
										
										
											2024-07-17 09:01:57 +00:00
+								              embedding: Embeddings):
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        pass
 								    @abstractmethod
-												fix: 修复索引中的文档,知识库删除后依然再执行 (#934)


											
										
										
											2024-08-06 08:22:53 +00:00
+								    def _batch_save(self, text_list: List[Dict], embedding: Embeddings, is_save_function):
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        pass
-												feat: 应用相关接口,模型相关接口

											
										
										
											2023-11-16 05:16:27 +00:00
+								    def search(self, query_text, dataset_id_list: list[str], exclude_document_id_list: list[str],
-												feat: 优化对话逻辑

											
										
										
											2024-01-16 08:46:54 +00:00
+								               exclude_paragraph_list: list[str],
-												feat: 应用相关接口,模型相关接口

											
										
										
											2023-11-16 05:16:27 +00:00
+								               is_active: bool,
-												feat: 支持向量模型

											
										
										
											2024-07-17 09:01:57 +00:00
+								               embedding: Embeddings):
-												feat: 优化对话逻辑

											
										
										
											2024-01-16 08:46:54 +00:00
+								        if dataset_id_list is None or len(dataset_id_list) == 0:
 								            return []
 								        embedding_query = embedding.embed_query(query_text)
 								        result = self.query(embedding_query, dataset_id_list, exclude_document_id_list, exclude_paragraph_list,
-												feat: 分离任务

											
										
										
											2024-08-21 06:46:11 +00:00
+								                            is_active, 1, 3, 0.65)
-												feat: 优化对话逻辑

											
										
										
											2024-01-16 08:46:54 +00:00
+								        return result[0]
 								    @abstractmethod
-												feat: 分段管理支持批量迁移,删除分段 #113,#103


											
										
										
											2024-05-08 02:40:15 +00:00
+								    def query(self, query_text: str, query_embedding: List[float], dataset_id_list: list[str],
-												 feat: 增加全文检索和混合检索方式


											
										
										
											2024-04-22 03:21:24 +00:00
+								              exclude_document_id_list: list[str],
 								              exclude_paragraph_list: list[str], is_active: bool, top_n: int, similarity: float,
 								              search_mode: SearchMode):
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								        pass
-												feat: 命中率测试接口

											
										
										
											2023-12-25 09:10:59 +00:00
+								    @abstractmethod
-												fix: 【知识库/应用】关闭文档后，命中测试还是可以命中文档

											
										
										
											2024-02-29 07:51:35 +00:00
+								    def hit_test(self, query_text, dataset_id: list[str], exclude_document_id_list: list[str], top_number: int,
 								                 similarity: float,
-												 feat: 增加全文检索和混合检索方式


											
										
										
											2024-04-22 03:21:24 +00:00
+								                 search_mode: SearchMode,
-												feat: 支持向量模型

											
										
										
											2024-07-17 09:01:57 +00:00
+								                 embedding: Embeddings):
-												feat: 命中率测试接口

											
										
										
											2023-12-25 09:10:59 +00:00
+								        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								    @abstractmethod
 								    def update_by_paragraph_id(self, paragraph_id: str, instance: Dict):
 								        pass
-												feat: 分段管理支持批量迁移,删除分段 #113,#103


											
										
										
											2024-05-08 02:40:15 +00:00
+								    @abstractmethod
 								    def update_by_paragraph_ids(self, paragraph_ids: str, instance: Dict):
 								        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								    @abstractmethod
 								    def update_by_source_id(self, source_id: str, instance: Dict):
 								        pass
-												feat: 添加问题管理相关接口,兼容历史版本

											
										
										
											2024-03-11 09:28:05 +00:00
+								    @abstractmethod
 								    def update_by_source_ids(self, source_ids: List[str], instance: Dict):
 								        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								    @abstractmethod
 								    def delete_by_dataset_id(self, dataset_id: str):
 								        pass
 								    @abstractmethod
 								    def delete_by_document_id(self, document_id: str):
 								        pass
-												fix: 批量删除文档,未删除关联段落信息, 添加关联问题报错

											
										
										
											2024-01-23 07:52:15 +00:00
+								    @abstractmethod
-												feat: 分离任务

											
										
										
											2024-08-21 06:46:11 +00:00
+								    def delete_by_document_id_list(self, document_id_list: List[str]):
-												fix: 批量删除文档,未删除关联段落信息, 添加关联问题报错

											
										
										
											2024-01-23 07:52:15 +00:00
+								        pass
-												fix: 删除用户报错

											
										
										
											2024-03-21 10:33:35 +00:00
+								    @abstractmethod
 								    def delete_by_dataset_id_list(self, dataset_id_list: List[str]):
 								        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								    @abstractmethod
 								    def delete_by_source_id(self, source_id: str, source_type: str):
 								        pass
-												feat: 添加问题管理相关接口,兼容历史版本

											
										
										
											2024-03-11 09:28:05 +00:00
+								    @abstractmethod
 								    def delete_by_source_ids(self, source_ids: List[str], source_type: str):
 								        pass
-												feat: 数据集,文档,段落,问题,向量化接口

											
										
										
											2023-10-24 12:24:32 +00:00
+								    @abstractmethod
 								    def delete_by_paragraph_id(self, paragraph_id: str):
 								        pass
-												feat: 分段管理支持批量迁移,删除分段 #113,#103


											
										
										
											2024-05-08 02:40:15 +00:00
 								    @abstractmethod
 								    def delete_by_paragraph_ids(self, paragraph_ids: List[str]):
 								        pass