贯通图文:多模态 AI 打造 Obsidian 图像工作流
贯通图文:多模态 AI 打造 Obsidian 图像工作流 关注 作者 关注 作者 关注 作者 关注 作者 2025/05/08 11:07作为一个 AI 方向的研究生兼重度 Obsidian 笔记用户,我一直都很关心如何用 AI 改良我们的知识管理工作流。之前,我在我的文章《用 AI 重构知识管理:重塑 Obsidian 工作流的三层进阶指南》中探讨了如何将大语言模型(LLMs)嵌入到 Obsidian 中来让知识管理更加高效。但是这篇文章提到的方法的都是针对文本这一载体的,知识管理的另一大重要组成部分——图像,被忽略了。因此,在写完这篇文章后,我开始思考能不能借助 AI 把图像也纳入到知识管理之中来。
经过了几周的探索实践后,这篇文章诞生了。 小宝影院在线视频xiaobaotv.video
本文会围绕知识管理中的图像来探讨如何用 AI 改良我们的知识管理工作流。我会结合我的实践经验,争取能够为你打造自己的知识系统提供一些灵感。 pgslot a5game.app 爱壹帆国际版 yfsp.app
图像:知识管理中的被忽视者
如果把人之间传递信息的载体叫做「媒体」,那么计算机技术诞生以来的那么多年里,其大多数时候能处理的媒体其实有且只有文本。虽然后来凭借节节高升的算力,从图像到视频再到游戏(如果能看作媒体的话)等各类媒体素材都开始呈现在了计算机的显示器上,但是其对这些媒体材料的处理都始终谈不上擅长——这是由这类媒体的性质决定的:计算机没有能力理解潜藏在 RGB 像素之下的抽象模式。因此一直以来,除了图像处理专业软件之外,大多数产品都不把创新的方向放在图像上面。 aiyifan yfsp.app
基于这种流传下来的习惯,一直到现在,主流的笔记软件对图像都是忽视的。以 Obsidian 为例,如果不做特殊的配置,Obsidian 就不能对图片进行编辑,也不能缩放以及调整图像对齐方式。此外,原生的 Obsidian 也对图像没有任何管理。如果你想在文章中引用过去用过的一张图像,你唯一的办法就是打开附件文件夹进行肉眼查找: 爱壹帆在线yfsp.app

但是在计算机视觉已经成为最卷方向的二十一世纪二〇年代,忽视图像不应该是常态。虽然 Obsidian 虽然在图像方面无所建树,但却留给了我们足够的空间去进行自定义配置。接下来的部分,我会围绕图像的识别、检索几个方面来介绍我是如何用 AI 改善图像工作流的。
OCR
OCR 可能是计算机视觉(CV)领域最成熟的技术之一,而且也是一个相当实用的技术。有了 OCR 的帮助之后,各种扫描版 PDF、禁止右键复制的网站将无法再阻止我们复制粘贴的脚步。 爱一番yfsp.app
经过 CV 学者们多年的内卷之后,OCR 模型已经可以毫不费力地在本地运行了,因此 OCR 也已经从一个亮点功能变成了标配。当前市面上大多数手机都已经内置支持 OCR 识图,Obsidian 之中也有许多相关插件。但是在我看来,OCR 功能不应该局限在一个 app 之中,而是应该支持全局调用,这样其才能成为一件趁手的工具。
Pixpin 是我个人使用过的最好截图工具,其一站式地包打了从普通截图、长截图、录屏到取色、OCR、图像编辑在内的一系列功能,而且这些功能对普通用户完全免费。在按下截图键 Ctrl+1 后,框选住屏幕上的文字,再按下 Shift+C 即可复制图中的文字: tigrinhodemo a5game.app 华人影视xiaobaotv.video

如果你愿意购买 Pixpin 会员,则还能实现复制表格到 Excel以及截图翻译(图源自官网): 寻秦记爱壹帆yfsp.app 小宝影院xiaobaotv.video

Pixpin 会员价格不算高,年费会员平均为 6.66 元每月,也可以选择 198 元买断,且购买的会员均为全平台通用。最主要的是,pixpin 免费版没有广告,而且功能相当全面,可以满足大多数人的日常需求。 pgslotgacor a5game.app slotpix a5game.app 爱壹帆寻秦记yfsp.app
LaTeX OCR
相比起识别文本,要准确识别数学公式并且转化为 LaTeX 代码是一个困难得多的问题。这是因为数学公式是介于文本和图画之间的一种东西,模型不仅得准确识别图中的符号,还需要识别符号之间的位置关系并且对应到 LaTeX 代码结构。这就给训练模型增加了许多困难。 plataformademográtis a5game.app pgdemo a5game.app iyftvyfsp.app demo a5game.app

然而很不巧的是,由于 LaTeX 公式书写起来很麻烦,大家对 OCR 识别公式的需求更加强烈。这催生了一大堆收费服务。比如大家公认的效果比较好的 LaTeX OCR 工具 Mathpix ,其免费版只支持每个月识别 10 个图片(教育优惠是 20 个),完全满足不了需求;Pro 版则收费达到了 4.99 美元一个月(36.37 元),且仍然有次数限制(5000 次)。 nba比分 a5game.app slots a5game.app

作为一个毫无经济实力的穷学生,我实在是无法接受为这样一个并非刚需的小功能付这么高的月费,因此在大多数时候我都依靠手打 LaTeX 公式来做论文笔记(使用 LaTeX Suite 技巧之后编辑 LaTeX 公式其实也很快,具体方法见一个简单的功能,让你再不为编辑公式发愁 - )。但是后来我发现,这并非是一个两难问题:我可以自己部署自己的 LaTeX 公式识别模型,实现免费且好用的 LaTeX OCR 功能。
首先,下载 Image2LaTEX 插件:

Image2LaTEX 本身不具有相关功能,其需要后端服务来识别公式。后端服务可以选择 Texify、SimpleTex 或者 pix2tex。
经过实测之后,我发现 Texify 本身不够稳定,而且部署出现问题不会有报错信息,可能需要修改代码,比较麻烦;SimpleTex 属于比较稳定的商用服务,无需部署,只需要在 simpletex.cn 网站上注册账户并且获取 API 即可。SimpleTex 对普通用户提供每日高达 2000 次识别的免费次数,足够满足日常需求:

然而,要领取 API 必须开通其开放平台,而开通开放平台需要充值 20 元: sugarrush1000demo a5game.app 免费在线影院xiaobaotv.video 爱壹帆电影 yfsp.app

而 pix2tex 则没有上述缺点,既没有付费部分,配置也相对简单。如果你安装有 docker,那只需要拉取镜像然后运行 API 服务: 爱一帆 yfsp.app
docker pull lukasblecher/pix2tex:api
docker run --rm -p 8502:8502 lukasblecher/pix2tex:api然后在插件设置中填入 url(http://localhost:8502/predict)即可使用公式识别服务: pg a5game.app xiaobao xiaobaotv.video

对公式进行截图,然后选择插件命令: ifuntvyfsp.app 小寶影院电影xiaobaotv.video 一帆yfsp.app

识别效果: fortuneoxdemográtis a5game.app

pix2tex可以精准识别多行公式。以下图为例,pix2tex可以自动识别到多行公式,不过不会自动加入 \displaystyle,这导致分式看起来要小一些:

不过相比于Mathpix,pix2tex识别矩阵就比较艰难了:

因此如果有识别大型矩阵以及 latex 表格的需求,仍然建议购买 Mathpix。当前,在高识别精度以及对大型矩阵、LaTeX 表格的识别方面,Mathpix 几乎没有平替,虽然贵但是物有所值。 Caça-níqueis a5game.app
图像搜索
OCR 只能将图像中的文本识别并且抽取出来,不能识别文本之外的内容。要真正让计算机理解图像中的内容则还需要更加复杂的算法。一般来说,常见的处理方法有两种: 海外华人视频网xiaobaotv.video
- 编码为向量:将图片编码为一个向量,这个向量浓缩了图像中的内容信息,可以用于图像分类、搜索等任务;
- 图生文:用文字描述图像中的内容,然后用这段文字替代图像。
其中,前者常用于检索增强生成、图像搜索等问题,搜索效果较好;比如Obsidian Copilot插件就使用向量搜索检索相关笔记。而相对而言,后者则常用于图像文本混合搜索,搜索效率较高。 pragmatic a5game.app
将搜索内容编码为向量之后进行搜索的方法可以统称为向量搜索。相比关键字搜索,向量搜索的好处是可以真正基于对内容的理解去搜索;而坏处是需要将搜索的关键词也编码为向量,成本较高。 plataformademo a5game.app jogodotigrinhodemo a5game.app
由于需要在搜索时对查询的关键字进行编码,向量搜索需要一些配套组件才能使用(比如编码器,向量数据库,特定搜索算法),要将其引入 Obsidian 中工程量会比较大。而为每张图片生成文字描述则要方便得多,可以无缝适应传统的搜索算法。 pglucky88 a5game.app

虽然从技术的角度来看,图像搜索是个相当复杂的问题。但是许多人不曾注意到的是,Obsidian 的知名搜索插件 Omnisearch 其实就支持基于图生文的图像搜索,而且相对很完善。不过要实现这个功能,我们需要安装另一个支持插件: 爱壹帆yfsp.app iyf yfsp.app 爱壹帆免费版yfsp.app fortunetigerdemográtis a5game.app

AI Image Analysis Plugin 支持使用 Llava 等多模态大模型为图像生成文字描述索引,从而让 Omnisearch 可以搜索图像。 一帆yfsp.app 电影爱壹帆yfsp.app 小寶影院xiaobaotv.video
AI Image Analysis Plugin 推荐用 Ollama 托管模型。Ollama 是一个很高效的本地大模型推理引擎。换句话说,就是 Ollama 可以大幅压缩大模型所需要的资源,允许你本地运行大语言模型。此外更重要的是,Ollama 对普通用户非常友好。只靠 API 交互或者简单的命令,就可以轻松下载、管理以及运行自己的大模型。有一个系列《本地大模型之路(一):大模型的是什么、为什么以及怎么选》已经将相关知识讲的很清楚,我这里不再赘述。 足球比分 a5game.app jogosdemopg a5game.app fortunetigerdemográtis a5game.app
仍然使用 docker 安装服务。首先拉取 Ollama 镜像,然后启动一个 docker 容器来运行 Ollama 服务。这两个操作可以用一行命令完成: ifun yfsp.app 爱亦凡yfsp.app
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama然后在插件设置填上 URL。如果你是在本地部署的话,你应该填写 http://localhost:11434/: 小宝影院电影xiaobaotv.video

选择一个模型,点击 Pull Model 即可在 Ollama 中下载模型。下载完毕之后,可以从 Ollama 输出的日志中发现 Obsidian 在调用模型: a5game a5game.app 小寶影院电影xiaobaotv.video

Omnisearch 搜索区会显示正在进行索引:

索引建立期间不能进行搜索,而索引所需的时间由库中图片的多少决定。如果你和我一样,库中有数千张图片的话,索引起来还是会很慢的。但是由于索引文件会被缓存起来,日常并不需要做索引这一操作,一劳永逸的等待也可以接受。正因如此,我建议关闭自动清理缓存选项,并且千万不要瞎点 Clear Cache: 电影小宝影院xiaobaotv.video fortunetigerbônusgrátissemdepósito a5game.app sweetbonanza1000demo a5game.app

等索引建立完成,Omnisearch 就可以搜索图像了: demo a5game.app 爱壹帆电影yfsp.app

如果使用中文搜索,需要把插件设置中的 prompt 用中文重写,否则建立的索引将不是汉语,无法用汉语搜索到。 iyifanyfsp.app tigrinho gratis a5game.app
除了图生文搜索,Omnisearch 也支持搜索图像中的文字。Omnisearch 可以使用 Text Extractor 插件 OCR 识别图像中的文本,并且也作为索引进行搜索。OCR 模型体积较小,可以内置在插件里面,因此 Text Extractor 即插即用即可。 JogodoTigrinho a5game.app slotsdemo a5game.app

结语
图文可能是目前效率最高的信息传递方式,我们的笔记数据几乎都是图文形式。但是作为「图文」二字中排在前面的图片却一直处于被忽视的状态,不仅难以管理和编辑,而且几乎完全和文字分离,也无法搜索。 slotdemo a5game.app
而通过 OCR 以及图生文等技术,我们可以打破文字和图像之间的藩篱,将图像也纳入到知识管理之中来。 fortunedragon demo a5game.app Cassinos a5game.app 爱壹帆影视yfsp.app
> 关注 公众号,解锁全新阅读体验 📰 demotigrinho a5game.app ifvodyfsp.app 一帆视频yfsp.app
> 实用、好用的 正版软件,为你呈现 🚀 pragmaticplay a5game.app slot a5game.app 华人影视xiaobaotv.video
3510目录 0