Skip to content

Image retrieval#2720

Open
yzAiden wants to merge 3 commits intoModelEngine-Group:developfrom
yzAiden:image_retrieval
Open

Image retrieval#2720
yzAiden wants to merge 3 commits intoModelEngine-Group:developfrom
yzAiden:image_retrieval

Conversation

@yzAiden
Copy link
Copy Markdown

@yzAiden yzAiden commented Mar 24, 2026

一、增加的功能描述
1.能够从 .pdf, .ppt/.pptx, .doc/.docx, .xls/.xlsx 文件中成功提取出所有嵌入的图片。
2.提取出的图片需以 .png 或 .jpg 格式保存至指定存储系统,并生成对应的元数据(如来源文件、在原文中的位置描述)存入知识库索引。
3.检索与展示: 在对话界面中,当用户提问涉及图片内容时,系统能返回并正确显示对应的图片。

二、功能实现的实现流程截图

1.部署阶段
1.1数据库knowledge_record_t表中加入新列"is_multimodal"(用于判断列"embedding_model_name"表示模型是否是多模态的)
1.1部署时可以选择是否下载模型(用于.pdf、.doc、.docx文件的图片提取部分)。下图的最上面是新增的选择,中间可以看到下载进度。
QQ20260325-002945
1.2模型下载位置为nxent-data下新建文件夹model中
image
1.3模型文件路径存入.env
image

2.创建知识库阶段
2.1右上角的"Multimodal"可点击,绿色表示使用多模态向量模型,黑色(默认)使用向量模型。
c314ce18e1c3714bb4334ad6df84a0e5
2.2向创建的索引中上传文件,提取是图片(doc docx pdf文件用了"hi_res"策略提取图片,如果不下载模型,无法提取对应文件图片)存入MinIO,存入新建的images_in_attachments文件夹里
image
2.3每一个图片元数据存到json对象里,作为文件切片内容上传到es中,将图片的向量存到es分片的“multi_embedding”字段中
image
元数据格式示例如下:
image
2.4上传成功后,知识库列表会展示模型类型"multimodal"的标签(不是多模态向量模型就不显示了)
cf45f7ecdae20ff99ed6104aefba378d

3.配置知识库检索工具阶段
3.1配置参数部分新加了一个"multimodal"字段,可选true或者false,表示是否用多模态向量模型,索引部分也会显示对应的“模型不匹配”和"multimodal"标签。测试后能正确出结果,会返回文件的文本,也会返回图片的元数据
9e084e1649b0a078aa3bd5f737f3557f

4.对话
4.1模型能成功输入xxx文件的xxx图片,来源部分的图片里也会展示搜索到的图片
ed8ac664f0eb2d1e735778c690862d28
520b30d5775668ff1133b4b30e8b9c0a
86ac184849fd71200f8f266d1b9637ff

@yzAiden yzAiden requested review from Phinease and WMC001 as code owners March 24, 2026 17:08
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant