1. 项目介绍
2. 开发中遇到的问题以及解决思路
问题1 :如何合理的选择文档切分策略?
目前已经实现根据固定token切分文档并存储到本地数据库,采用chromaDB+SQLite的混合存储。但是根据固定token切分效果很不好,无法有效分割不同知识。而采用语义切割,当文档内容增多,多个大文档需要注入时,切分和向量计算的开销又会非常的大。因此需要找到一个合适的切分策略。
问题2:评判agent的评判算法或者策略该怎么设计呢?
目前采用BM25+embedding向量计算+llm判断的方式,但是bm25在中文的有效分词上难以解决,目前采用将query和response全都拆分为单个字进行匹配。embedding则为正常的余弦相似度匹配