一个不太好接受的数据
我们分析了DeepSeek和Kimi在3000组查询中的引用来源,发现了一个让人不太舒服的数字:大约92%的网页内容从未被任何AI搜索引擎引用过。注意,这里说的是"内容"——很多页面在Google上有排名甚至有不错的位置,但在AI搜索里完全是透明的。
这背后是一个正在发生的事实:SEO和GEO正在分化成两个不同的游戏。你的页面能在Google排到第一页,不代表AI会引用你。
AI搜索引擎怎么判断该引用谁
我们把AI引用的决策逻辑抽象成了三个维度。
第一个是信息密度。注意,这和字数无关——一篇3000字但每段都在绕圈子的文章,信息密度远不如一篇800字每句都踩在点上的内容。信息密度=有效信息量÷总字数。我们的测试结果是:被高频引用的内容,平均信息密度比未被引用的高出接近一倍。
第二个是独特性。如果你的内容和搜索结果前10页里其他站点说的几乎一样,AI大概率不会引用你——它会去找那个最独特的信息源。这也是为什么个人经验贴的引用率能超过企业产品介绍页。独特不代表非要很偏激,而是你的内容里有别人没有的东西。
第三个是可验证性。AI在引用内容时会做一个隐含判断:这个信息我能核实吗?如果一篇文章从头到尾没有任何来源标注、没有数据出处、没有可以被交叉验证的具体事实,AI会判定为"不可验证",引用优先级直接掉到底。
大多数人踩的三个坑
最大的坑是信息重组。把公开信息换种说法排列一遍,以为这就是内容创作。AI模型识别这种重组内容的能力远超很多人的预期——它能判断你的措辞与已有海量文本之间的相似度。相似度过高,直接判定为"衍生内容"而不是"原始信息源",不会引你。
第二个坑是关键词驱动写作。围着几个关键词凑字数,而不是围绕一个真实存在的问题给答案。AI搜索的核心是回答用户的问题——如果你的内容回答了一个具体问题且回答得够好,就算没做任何关键词优化,被引概率也不低。
第三个坑是忽视更新。AI搜索引擎会把新鲜度纳入引用权重。一个三年前的帖子被引的概率远低于三个月前的——除非这个帖子是那种被领域内广泛引用的基石内容。
怎么挤进那8%
第一条,每篇内容至少包含3个以上可以被独立验证的数据点。别写"市场增长迅速",要写"根据XX报告,这个市场2024年增长了37%"。让AI能判断出你有来源、可追溯。
第二条,在文章里嵌入经验。你自己的、你团队的、你客户的都行。经验性内容别的网站没法复制,这是天然的内容护城河。
第三条,标注发布日期和更新日期。这个细节的成本基本为零,但在AI引用决策里的权重比你想象的大。