中级选手

AI科普——为什么国产AI搜索质量低

使用国产语言模型产品比如豆包/Kimi/通义千问等搜索信息会经常产生看似合理但实际错误的信息,专业称之为“幻觉”。国产AI搜索质量低的原因有几个。

1)大语言模型和搜索是两个科技领域。大语言模型(LLM)注重对人类自然语言的理解和处理,让AI和人能够自然的对话,而搜索的重点在于信息爬取和索引,注重信息的实时性和准确性。国内的AI产品都在前者上下功夫。

2)国产大模型可爬取的信息非常有限。虽然全球互联网中文内容占比19%(用户数量/人口原因),但是中文网站仅占1.6%,甚至低于越南语,而且此数量还在下降。再加上很多优质中文内容在封闭生态系统中(如微信公众号、短视频、头条号等),搜索引擎无法爬取这些封闭生态系统。有限的中文数据也导致国产大模型成长受限。

3)信息爬取和索引技术能力差,以百度为例过度注重变现,导致广告泛滥,信息偏差严重,大量低质量、重复的内容充斥。这导致大模型原始信息来源质量低,回答的内容质量自然也低。目前最领先的AI搜索引擎是Perplexity AI。昨天推荐的秘塔AI 是做搜索起家,语言模型用的是Meta的开源模型LLMA,所以用专业的搜索技术加上国外领先的开源模型就能避免上述问题,提供准确可靠的搜索结果。

AI建议 —— 消除偏见,看AI合乎中道

第一,我们要消除头部偏见,不要觉得最出名的AI工具就是最好的,最全能的。拿 ChatGPT 举例,它的确是全球最出名的AI工具,也是最有光环效应的,但它并不适用于所有使用场景。比如在复杂思维、数据分析、代码生成领域,Claude 超越它。在信息搜索方面,Perplexity超越它。ChatGPT 不是AI领域的天花板。所以我们要选择正确的工具去完成对应的任务。至于什么工具能解决什么问题,我们在AI学习群里边有详细介绍。

第二,我们不要低估AI的能力,现在AI可以完成很多工作任务,而不是简单的你问它答。比如你可以上传 Claude 一个公司名单,它可以按照你需要的内容搜索信息完成表格,几百个公司也不是问题。同时我们也不能奢望AI能够完全做完所有内容,比如视频制作中,可以使用AI生成视频,但最后还需要人去剪辑拼凑达到美感和逻辑。至于AI的能力边界在哪里,只有自己尝试过才知道,而且这个边界在快速扩张。