删除误提交文件

graph_memory
Bifang 2026-06-24 17:51:35 +08:00
parent a6853a507f
commit cec62c6302
4 changed files with 2 additions and 3039 deletions

2
.gitignore vendored
View File

@ -1,3 +1,5 @@
.env .env
__pycache__/ __pycache__/
data/ data/
agent_memory/
test_knowledge_base/

View File

@ -1,46 +0,0 @@
{
"session_id": "neo4j",
"messages": [
{
"role": "user",
"content": "检查一下当前知识库"
},
{
"role": "assistant",
"content": "当前知识库目前是**空的**。\n\n根据 `query_meeting_memory` 的查询结果:\n- **会议记录**0 条\n- **实体/关系**0 条\n- **行动项/指标**0 条\n\n**下一步建议:**\n如果您有会议转录文本文件或直接文本请发送给我我将使用 `store_meeting_memory` 为您进行归档和知识抽取。"
},
{
"role": "user",
"content": "C:\\Users\\admin\\Downloads\\会议原文 该路径下的md是最近的几个会议你依次帮我整理一下"
},
{
"role": "assistant",
"content": "thought\n整理结果如下\n\n**进度总结:**\n1. ✅ **已成功整理**\n - `文件会议 06-11 15_52-Transcript.md`\n - 归档路径:`data\\raw\\2026-06-11_分公司周例会.md`\n - 提取成果32个实体、5个项目、10个指标、4项行动项。\n\n2. ❌ **处理失败(文件过大)**\n - `transcript_704.md`\n - `transcript_710.md`\n - `transcript_711.md`\n - `transcript_712.md`\n - **失败原因**:这些文件的内容长度均超过了系统单次处理的 **32,768 tokens** 上限,导致无法进行语义分析和知识抽取。\n\n**下一步建议:**\n由于这些文件体积较大请您尝试以下操作\n1. **手动拆分**:将这些 `.md` 文件按内容逻辑(例如按小时或按议题)拆分为较小的文件,然后再次发送给我。\n2. **分段上传**:您可以直接将文件中的内容**分段复制**并粘贴到对话框中,我会逐段进行记忆存储。\n\n需要我先为您展示已整理好的 `2026-06-11_分公司周例会` 的详细内容吗?"
},
{
"role": "user",
"content": "我看日志embedding还是超出token了"
},
{
"role": "assistant",
"content": "是的,您的观察非常准确。\n\n这是因为 `store_meeting_memory` 在执行“深度抽取”Extraction会将全文内容发送给大模型进行语义分析。当单个文件的 Token 数量超过了模型单次处理的上下文窗口Context Window限制时就会导致 Embedding 或解析阶段报错。\n\n为了绕过这个限制我将改变工作模式从“全量文件处理”切换为 **“分段增量存储”** 策略:\n\n### 🛠️ 改进后的处理流程:\n1. **手动切片**:我不再直接把 `file_path` 传给工具,而是改用 `read_file` 手动读取文件内容。\n2. **分段注入**:我会将文件按逻辑块(例如每 5,000 - 8,000 tokens进行切分。\n3. **增量更新**:我将每一段内容作为 `content` 参数调用 `store_meeting_memory`。\n * *原理*:该工具在处理 `content` 时,会将新发现的实体、关系和行动项与已有的知识图谱进行 **Merge合并**。这样即使是分段输入,最终在知识库中呈现的依然是完整的会议画像。\n\n### 🚀 准备开始\n由于分段处理会消耗更多的步骤我建议我们先拿一个“大文件”做个测试。\n\n**请指示:您希望我先尝试处理哪一个文件?**\n(建议从 `transcript_704.md` 开始)"
},
{
"role": "user",
"content": "就上面失败那个开始吧"
},
{
"role": "assistant",
"content": "第一阶段(前 22 分钟内容)已成功存入。\n\n**处理详情:**\n- **文件**`transcript_704.md` (Part 1)\n- **归档路径**`data\\raw\\2026-06-24_会议704_-_业务收入与项目进度协调会.md`\n- **关键信息命中**\n - **收入/毛利**:提到 217 万收入(已完成 79 万),全年预估 3.2 亿(受 7000 万项目影响)。\n - **重点项目**河北计算中心7680 万交换机项目)、解放碑定制开发(涉及工单系统边界问题)、四川南城算利融资项目。\n - **核心议题**:讨论了定制开发业务的定价策略、研发成本控制以及 AI 工具Token 使用)的量化管理。\n\n**下一步:**\n由于文件较大我将继续读取并处理该文件的**下一段内容**(从第 22 分钟之后开始)。请稍候。"
},
{
"role": "user",
"content": "继续吧"
},
{
"role": "assistant",
"content": "抱歉,由于安全限制,我无法直接读取您电脑本地路径 `C:\\Users\\admin\\Downloads\\...` 下的文件。我只能访问工作区 `D:\\github_project\\my_code\\meeting_knowledge` 目录内的文件。\n\n刚才我之所以能处理第一个文件是因为该文件已经被系统同步或由于某种方式被加载到了工作区中或者我之前在处理时已经成功读取了它但我现在尝试重新读取时遇到了路径越权错误。\n\n**为了继续处理 `transcript_704.md`,请您协助我完成以下操作之一:**\n\n1. **将文件移动到工作区**:请将 `transcript_704.md` 拷贝到 `D:\\github_project\\my_code\\meeting_knowledge` 目录下。\n2. **直接粘贴文本**:如果您觉得文件不大,可以直接将文件的文本内容(或者其中一部分)**直接粘贴在对话框里**发给我。\n\n一旦文件进入我的工作区我将立即开始分段处理。"
}
],
"max_persisted_turns": 20
}

File diff suppressed because one or more lines are too long