AI科普——为什么国产AI搜索质量低
使用国产语言模型产品比如豆包/Kimi/通义千问等搜索信息会经常产生看似合理但实际错误的信息,专业称之为“幻觉”。国产AI搜索质量低的原因有几个。
1)大语言模型和搜索是两个科技领域。大语言模型(LLM)注重对人类自然语言的理解和处理,让AI和人能够自然的对话,而搜索的重点在于信息爬取和索引,注重信息的实时性和准确性。国内的AI产品都在前者上下功夫。
2)国产大模型可爬取的信息非常有限。虽然全球互联网中文内容占比19%(用户数量/人口原因),但是中文网站仅占1.6%,甚至低于越南语,而且此数量还在下降。再加上很多优质中文内容在封闭生态系统中(如微信公众号、短视频、头条号等),搜索引擎无法爬取这些封闭生态系统。有限的中文数据也导致国产大模型成长受限。
3)信息爬取和索引技术能力差,以百度为例过度注重变现,导致广告泛滥,信息偏差严重,大量低质量、重复的内容充斥。这导致大模型原始信息来源质量低,回答的内容质量自然也低。目前最领先的AI搜索引擎是Perplexity AI。昨天推荐的秘塔AI 是做搜索起家,语言模型用的是Meta的开源模型LLMA,所以用专业的搜索技术加上国外领先的开源模型就能避免上述问题,提供准确可靠的搜索结果。