Embedding+LLM不限字数文本总结

Kevin Tsang Lv2

2024-07-08 2024-07-08 Created 2025-06-24 18:08:49 2025-06-24 18:08:49 Updated

Programming

technology
| AI

Status #核心代码已实现

#语段分块

openAI｜嵌入超长文本嵌入比模型的最大上下文长度长的文本-openAI维基百科
 一文通透Text Embedding模型：从text2vec、openai-ada-002到m3e、bge-CSDN博客 | by成就一亿技术人! | ReadWeb

#平均向量递归

分块后，模型向量计算平均向量，然后在原文本中找到与块中计算出的平均向量最相似的文本，然后将这些找到的文本组合起来，然后交给llm一次性整理总结。注意llm模型有最大token，如8192，考虑到回复也需要产生token,如果组合出来的文本块超过了4096，则从组合出的文本块中继续进行（分块-计算平均向量-组合各块“平均”文本）的操作，直到组合出的文本少于4096词，交给llm总结整理。

#核心代码实现

`txtv3.py

暂不支持gpt总结只支持离线模型

Title: Embedding+LLM不限字数文本总结
Author: Kevin Tsang
Created at : 2024-07-08 00:00:00
Updated at : 2025-06-24 18:08:49
Link: https://blog.infrost.site/2024/07/08/Embedding_LLM不限字数文本总结/
License: This work is licensed under CC BY-NC-SA 4.0.

Comments

Kevin's Blog

Embedding+LLM不限字数文本总结

Status #核心代码已实现