秘塔到底怎么选引用源?我跑了50组测试
上个月接了三个客户的GEO案子,都在问同一个问题:秘塔搜出来的结果,为什么总引用某些网站?为了搞明白这件事,我设计了一组测试——50个不同行业的搜索词,每组搜10次,记录秘塔引用了哪些页面。
先说结论:秘塔的引用偏好非常明显。50组测试里,被引用超过5次以上的来源有三个共同特征:一是页面结构清晰(有明确的H2/H3层级),二是有具体数据或案例支撑,三是域名权威度较高(.edu、.gov、知名媒体的引用率是普通网站的三倍多)。
有一个细节很多人没注意到:秘塔对「答案型」内容的偏好远高于「列表型」。举个例子,搜「怎么选CRM系统」,一段300字以上、带具体判断标准的段落,比一个「Top10 CRM」列表的引用概率高出近40%。
为什么有的高质量内容就是不被引?
测试里还有一个反直觉的发现:内容好不等于被引用。有篇文章在百度排名第2,写得很专业,但秘塔一次都没引用过。为什么?
我去看了那篇文章的HTML结构,发现问题出在三个地方:第一,全文只有一个H1,没有子标题层级,秘塔的RAG模块在做语义切块时很难准确定位段落;第二,页面用了大量JavaScript动态加载内容,爬虫拿到的DOM和用户看到的完全是两个页面;第三,没做结构化数据标记(Schema.org的FAQ标记、Article标记都没有)。
说白了,秘塔的检索增强生成(RAG)流程是先抓取→切块→向量化→检索→生成,如果你的页面在「切块」这一步就碎了,后面环节再强的模型也救不回来。
三个能立刻落地的方法
基于测试结果,我总结了三条实操建议:
第一,用FAQ结构写内容。别管「文章要有起承转合」那一套,直接Q&A结构最容易被秘塔识别和引用。每个H2下面放一个完整的问题+答案段落,300-500字之间,不要太长也不要太短。我们测过一篇2000字的FAQ文章,两周后秘塔引用率从0涨到了12%。
第二,给数据加来源链接。秘塔对「可验证的信息」有明显偏好。如果你写「市场年增长率15%」,后面紧跟着一个权威来源的链接,被引用的概率大幅提升。我们用一个电商客户的页面做了A/B测试:加来源链接的版本引用次数是没加的2.7倍。
第三,页面技术体检先过关。用Google Rich Results Test跑一遍你的页面,看结构化数据有没有生效。用浏览器的「查看网页源代码」确认你的正文在HTML里(不是JS动态渲染的)。这两步花不了半小时,但很多网站就栽在这里。
还有个容易被忽略的点
秘塔更新的频率比很多人想的要快。我用同一个测试页面观察了一个月,发现秘塔的索引刷新周期大概是3-5天。也就是说,你今天更新了一篇内容,四五天后秘塔的引用结果可能会变化——但前提是你改的不是错别字,而是实质性的内容增量。
最后说一个真实感受:做GEO比做百度SEO舒服得多。不用纠结外链、不用考虑竞价排名、不用跟快排站抢位置。你只需要把内容写清楚、把数据写准确、把页面结构理好,AI自己会判断该不该引用你。这反而回到了内容本身的较量。