关注技术潮流和人工智能发展的网站

AI 搜索去魅

🔗 B端产品经理两大难题:如何从市场,用户,业务等多个角度分析和设计产品?如何有效地管理和推进项目落地?

在人工智能飞速发展的今天,AI搜索技术被广泛认为是信息检索领域的一次革命性进步。然而,随着这一技术逐渐从实验室走向市场,它也面临着各种争议和质疑。本文旨在深入探讨AI搜索技术的现状、挑战及其未来的发展方向。

最近不断听到 AI 搜索是新共识这种观点,但在即刻搜索“AI 搜索”,出现的动态翻来覆去都是我关注的那几个人在发,我无法确定是因为信息茧房还是真的新共识,得花点时间研究研究技术实现逻辑,避免焦虑。

本文主要为自己学习后整理,会包含一些其他文章的观点、内容原文,非洗稿。

一、优质信息源推荐

一节播客,了解基础技术实现逻辑  

https://www.xiaoyuzhoufm.com/episode/668be4c2ae8e21859a657b8a

一篇知乎文章,包含技术实现以及部分商业逻辑  

https://zhuanlan.zhihu.com/p/708438505

一节播客以及一篇公众号,都是来自 ThinkAny 的创始人,对产品功能规划比较体系化并且详细的讲述

https://www.xiaoyuzhoufm.com/episode/6644d2da251bd96e6c951aa1

我做了一个 AI 搜索引擎

这节播客是对谈 360 VP,关于 360AI 搜索如何做的,包含一些内部才知道的信息量(但我发现播客中的内容已被多篇文章引用)

https://www.xiaoyuzhoufm.com/episode/665eda5f63c334a2fb484a2c

若关注搜索引擎,可看这篇以及文章内的相关推荐  

搜索技术专栏

产品经理如何做好B端数字化?

各行各业都搭上了数字化转型的顺风车,实现了行业的迅速发展。由于B端产品是为企业所提供服务的产品,那么,企业应该如何乘上数字化的顺风车呢?

查看详情 >

若关注 AI 搜索的一些思考,可看这篇文章,此文作者也做过多个 AI 搜索的横向对比

https://mp.weixin.qq.com/s/NsvecuHT_h21d9po0c7UmQ

二、技术逻辑

技术实现逻辑简单说就三步:

第一步:获取用户 query,并调用 Google 等搜索引擎或第三方服务,获取到搜索结果。

第二步:利用 embedding 等技术对搜索结果进行排序、切片。

第三步:利用 RAG 技术从几十个网页中提取和 query 相关的信息,然后通过大模型来整合生成输出。

一些补充说明:

1)绝大部分通用 AI 搜索并未自建搜索引擎,都是调用三方搜索引擎获取结果,据说 360VP 说,如果要爬 5000w 的网页,大概需要一两百万人民币,爬回来的内容还要自己做安全审核,现在通用搜索引擎的网页都是千亿级别,通过多年不断爬回来的,不管从时间还是钱维度,都不是普通创业者能承受的。

2)搜索引擎返回的网页需要做内容需要按语义、段落、句子等方式做切分,将网页内容转化为更小的、易于处理的信息块,便于后续步骤中更有效地检索和利用信息。

3)RAG 技术原理

4)Perplexity 技术路径

5)ThinkAny创始人认为的标准流程(ThinkAny 这套现在还未搭建完成)

6)传统搜索引擎技术路线

三、三类 AI 搜索

1. 通用 AI 搜索

即支持搜索所有内容,例如 360AI 搜索,这类搜索一般不会自建搜索引擎,可做空间相对有限,毕竟搜索结果来自于三方的搜索引擎。

据说秘塔在自建搜索引擎。

2. 垂类 AI 搜索

可做空间更大,因为拥有特定领域的数据源和数据库,需要把私有数据建立索引,自己要干更多的活,而不是直接去调用三方搜索引擎。

例如支持搜索小红书、豆瓣、公众号、日历、地图,甚至微信聊天内容。

3. 企业 AI 搜索

将企业的各种结构化、非结构化数据都建立索引,然后提供一个查询接口。

例如钉钉,用户在钉钉里面可以搜索所有的聊天记录、文档、会议、日程、知识库等。不仅能够搜索到全面的信息,还能整合钉钉上的工作信息,比如整理出与谁、在哪个场景(比如哪个群、哪篇文档、哪次会议或哪个业务流程等)的综合信息(此段信息来自网络,不保真)。

还有一类全家桶型 AI 搜索,也可以归为企业 AI 搜索,因为他适合拥有全家桶的大公司,例如 Gemini 可能支搜索 YouTube、Gmail、Google 网盘、GoogleMap、Google 文档、Google 日历等一系列产品里的信息,现在已支持下方产品。

这些分类一般都会有一些交叉,例如通用 AI 搜索也会有一些特定领域数据,来增加自己差异化优势,例如秘塔支持播客搜索,360 改造了原来的搜索索引库。

四、可做方向

现在处于百花齐放阶段,各个产品都在通过不同环节的优化打造出自己的独特优势,例如支持搜索小红书、播客、法律等专业搜索,结果支持导图展示,支持深入研究等。

从技术实现逻辑三个步骤我们可以粗略划分为三个方向。

1. 获取结果

意图识别,输入改写,支持模型切换,选择便宜的搜索引擎,自建私有数据源,支持多模态搜索,同时进行中英文搜索,支持深入研究……

2. 结果处理

搜索引擎结果重新排序,知识库切片……

3. 结果输出

支持展示摘要,支持复制,支持直接编辑,支持小红书式 feed 流,支持左右滑动式交互,支持一键生成 PPT,生成导图等……

短时间来看,不管哪类搜索,不管在哪个方向优化,找到合适的用户定位,都有机会建设起差异化优势。

长周期来看,我比较认同一位即友的观点,AI 搜索不应该局限在 Summary,更应该关注整个任务链,即用户意图、用户搜索之后会做什么,去解决用户搜索背后的任务。

https://web.okjike.com/originalPost/6690abf699c7144fd6af42a0

五、AI 搜索主要成本

通过上面技术逻辑可看到,主要包括:搜索引擎 API,获取私有数据,私有数据存储,调用大模型 API,训练成本,运营成本等。

关于一次搜索的成本,一次调用搜索引擎的成本,多个播客中提到的并不一样,且会和技术、时期等都影响很大,所以这里未展示出来。

六、商业模式

目前 AI 搜索商业模式主要有两派,我将其称为订阅派、广告派。

广告派:以 360、Google 为主,坚决不向 C 端用户收费,还是想办法向广告主收费。

订阅派:通过次数限制,高级功能限制等方式,付费解锁。

七、关于 360

因为听了节 360VP 聊 AI 搜索,涉及些平时很少有渠道了解的到的信息,所在这里记录下来。

1. AI 搜索引擎根据不同业务场景,通过语义识别进行场景分流,再根据场景的流程设计,多次调用大小模型,提供最终的解决方案。比如 360VP 梁志辉曾经表示,360 一次 AI 搜索有 9 次大模型的调用。

2. 360 将 query 的意图识别分类做到了4000多种,每一种需求配对应的Prompt,工作做得已经相当精细,但 360VP 表示这仍然只是很粗颗粒度的匹配。

3. 深入回答

其他产品生成长文本的逻辑:先生成大纲,大纲再进行扩写,但这样可能会出现一些问题,例如质量不可控,重复等。

360 的解决方案:发现国内外的互联网内容是存在一些割裂的,对很多问题缺乏专业网站,所以解决方案是用中文搜索一遍,用英文再搜索一遍,英文搜索时则多参考一些海外网站。

八、本文未讨论但很重要的问题

AI 搜索引擎的评价标准是什么

什么场景适合 AI 搜索,什么场景原来搜索更有优势,寻址?找资源?解决问题?即时问题?简短内容?还是生成报告式搜索?

一些垂类搜索,AI 搜索+商品,AI 搜索+旅游,AI 搜索+图片,AI 搜索+小红书?

PMF、TPF

AI 搜索什么最重要,技术?体验?搜索结果忠于原网页?还是定位?

关于成本、商业模式、搜索的未来、市场格局的变化等。

九、最后建议

作为非 AI 搜索从业者,无需作为产品蝗虫花太多时间关注,大致知道哪些产品有哪些独特功能、独特数据源,能够更高效解决自己生活中的问题即可。

例如秘塔可以搜索播客;

例如 kimi 原来可以搜索小红书内容(后来下线了);

例如 360 能够展示导图更结构化查看;

例如通义千问可以总结播客;

例如万知可以处理数百页的 pdf,并生成 PPT;

例如 Gemini 可以关联 Google 全家桶,总结 Gmail 邮件;

例如 GPT 支持 memory;

……

赞(0)
文章名称:《AI 搜索去魅》
文章链接:https://www.jiankangbaoxianwang.com/archives/8909.html
【免责声明】资讯内容中如有提及保险产品信息仅供参考,具体请以保险公司官方正式条款为准