AI 问通笔记

搭建个人 AI 知识库的完整流程

从资料收集、清洗、切分、向量化到检索问答,梳理一个适合个人长期维护的知识库流程。

2026年6月22日1 分钟阅读AI 问通
搭建个人 AI 知识库的完整流程

适合个人博客的知识库结构

个人知识库不应该一开始就追求复杂。更稳的方式是把资料分成三层:原始资料、整理后的笔记、可直接复用的结论。原始资料保留来源,整理笔记保留上下文,结论则用于写文章、做方案或回答重复问题。

资料进入知识库前要先整理

不要把所有 PDF、网页和聊天记录直接塞进去。先做一次轻量清洗:删除目录页、广告、重复段落和无关截图;给每份资料补上标题、来源、日期和主题标签。后续检索质量通常不是模型决定的,而是这些基础元数据决定的。

切分策略

教程类内容适合按小标题切分,每段控制在 500 到 900 个中文字之间。太短会丢上下文,太长会影响召回精度。切分时保留标题路径,比如“部署 > 环境变量 > 生产配置”,这样回答时更容易引用正确段落。

日常维护

每周固定清理一次低质量资料,把常用问题沉淀成文章草稿。知识库真正有价值的部分不是一次性导入,而是持续把经验整理成结构化内容。