如果你这两年一直在做 SEO,你应该已经感受到了一个变化:过去那套“多发内容 + 调点关键词 + 等波动”的做法,越来越像在黑箱里碰运气。
真正能把不确定性压下来的,不是“新技巧”,而是证据链。

过去 18 个月,行业第一次拿到三份能互相校验的“硬证据”:

  • DOJ 反垄断案(2023.9-2024.8):高管宣誓证词 + 内部沟通成为法庭记录公开。
  • Content Warehouse API Leak(2024.5):2500+ 模块、14000+ 属性被行业技术团队解构。
  • MWC Exploit(2024.12):公开报道显示通过 API 端点漏洞抓取到大规模站点与查询分层数据(后续已修复)。

这篇文章只做一件事:把这三份公开证据拼成一个可执行工程模型——Google 排名机制从“玄学”变成“可验证系统”。以下内容结合庭审记录、Mike King(iPullRank)技术拆解、Rand Fishkin 与 Search Engine Land 等公开分析,以及 Shaun Anderson、Tom Capper 等一线从业者的整合视角,目标不是“猜算法”,而是把变量、机制和动作拆到能进周报的粒度[1][2][3][8][9]

先看结论(30 秒版)

  • 排名主框架没变:先 Core Ranking 入围,再由 Twiddler 决定最终位置。
  • 真正该抓的是三件事:T*(对题)、Q*(可信)、P*(被持续选择)。
  • 2026 最大变化:AIO 抬高了“可引用答案”的门槛,尤其是事实型与定义型查询。
  • 最常见误区:把“发更多内容”当成万能解。现在更像是“先避开 demotion,再做增量”。
  • 可执行方向:先做查询分类,再做实体建设,最后做行为质量优化。

1)Google 不是“一个算法”,而是 6 段流水线(2026 版)

Google Ranking Structure

先把总图立住。Google Search 更像一条多阶段生产线,而不是一个单点打分器:

  1. Crawling(爬取):Googlebot 发现新页面与更新页面。
  2. Indexing(索引):内容进入分层索引体系(公开讨论中常见 Base / Zeppelins / Landfills 的理解框架),并挂上站点/主机级基础属性(如主机历史、主题聚焦度)。
  3. Query Processing(查询理解):把用户输入映射为意图类型与检索需求。
  4. Core Ranking(初始排序):用 Ascorer / Mustang 一类核心打分系统筛出候选池,核心可抽象为 T* × Q* × P*。
  5. Post-Ranking / Re-ranking(二次重排):在 Twiddler 框架下并行叠加点击行为、新鲜度、质量增强、降权等系统。
  6. SERP Generation(结果页组装):拼装网页结果、特性结果与生成式模块(含 Gemini 驱动的 AIO)。

这里最容易被忽略的点是:“先入围,再争名次”
Core Ranking 决定你能不能进候选池;Twiddler/后排序系统决定你最后排第几。AIO、Featured Snippet、PAA 这类 SERP 特性之所以变化快,本质上就是后链路可快速调参的结果[1][4]

2)核心打分框架:T* × Q* × P*

结合 DOJ 庭审披露信息与行业技术解读,一个足够实用的抽象是:

$$
\text{Ranking} = T^* \times Q^* \times P^*
$$

这不是“唯一真实公式”,但它在执行上非常好用,因为把问题拆成三类可观测、可优化、可复盘的系统。
Shaun Anderson 等从业者对公开证词的提炼,也在实践上反复验证了这套结构价值[10]

2.1 T*:Topicality(主题相关性)

T* 关心的是“这个页面对这条 query 是否对题”。
实操上可拆成 ABC 三块:

  • A = Anchors(锚文本):外链锚文本与目标页主题的一致度。
  • B = Body(正文语义):正文内容与查询意图是否匹配(不仅是字面词频)。
  • C = Clicks(点击行为):历史交互反馈会被后续系统吸收并反哺。

简化理解:T* 是“能否对上题”的最低门槛。题都没对上,其他信号很难救回来[1][2]

2.2 Q*:Quality(站点/子域质量分)

Q* 是 2026 年最该被正视的一层:它更像查询无关的基础信任分
多方公开材料交叉后,行业共识是它至少具备以下特征:

  • 更偏 subdomain 级,不是粗粒度整站一刀切。
  • 数值化连续区间(0~1)便于下游系统调用。
  • 低于某阈值时,部分 SERP 特性资格会受限(如特色摘要、PAA 资格门槛)。

MWC Exploit 相关分析中,0.4 阈值被反复提及,且与后续观测具一致性:
不是说你 0.39 就“被惩罚”,而是你在特性结果竞争中连入场券都拿不到[3][5]

进一步看,Q* 的可操作输入常被归纳为三类:

  • Brand Visibility:品牌相关搜索与可见资产强度。
  • SERP Selection Rate:用户是否“跳过前几名主动选你”。
  • Anchor Text Brand Prevalence:外链锚文本里品牌词占比。

这解释了一个反直觉现象:
你排第 5 但被持续主动点击,Q* 可能上升;你排第 1 但持续被跳过,Q* 反而会被拖累。

2.3 P*:Popularity(受欢迎度 / 行为与图谱)

P* 主要承载“被用户持续选择”的结果。
它既来自链接图谱,也来自长期行为系统(下面单独讲 NavBoost)。
一句话:Q* 解决“你值不值得信”,P* 解决“用户是不是持续选你”

3)NavBoost:为什么“短期刷点击”越来越无效

Pandu Nayak 在庭审中的表述已经足够清楚:NavBoost 是“最重要信号之一”,并且是核心检索/排序链路中的关键环节[1]

把它翻译成可执行语言,大致是:

  • 长窗口记忆:按 13 个月滚动窗口累计历史交互,而不是看几天 CTR。
  • 质量分层:并非“有点击就加分”,而是区分 good click、bad click、last longest click 等不同质量交互。
  • 切片计算:按国家/语言/设备形态(移动/桌面)做切片,最后合流。
  • 用于 culling + rerank:既参与候选集收缩,也影响后续排序特性触发。
  • 与降权系统联动:相关行为特征可通过类似 CRAPS 这类链路映射为 demotion 分值,再进入 Twiddler 执行。

这直接推翻了很多“短线技巧”:

  1. 刷 CTR 的边际收益很低,且异常模式可被模型识别。
  2. 真正有效的是“持续满意行为”累积:标题承诺、落地页兑现、信息密度、交互体验一致。
  3. 国家/设备分层意味着:同一内容在移动端体验差,会直接拖累对应切片表现。

如果你问 2026 年最硬的护城河是什么:不是更会写标题,而是长期可重复的 good click 生产能力[1][2]

4)HCU 真正打击什么:不是“AI 内容”,而是“未定义实体”

官方叙事常被简化为“打击低质量内容”。执行层面看,更接近:
当系统无法判断你是谁、为何可信、为什么该给你可见度时,会触发站点级不利调整。

这就是近两年被反复验证的思路:
内容问题通常只是表象,根因常是实体与信任信息断裂(Disconnected Entity)。
而且 HCU 在 2024 年 3 月后已并入核心排名系统,影响更偏 site-wide 级联,而不是单页小修小补就能逆转[6][10][11]

4.1 常见触发链路

$$
\text{实体信息弱(作者、组织、业务关系、证据链)}
\downarrow
\text{站点质量与可靠性判断不稳定}
\downarrow
\text{在核心更新或有用内容系统合流后出现 site-wide 表现下滑}
$$

4.2 恢复为什么慢

因为这不是改一篇文能解决的,它是站点级再评估问题。
有效恢复通常要同时补四类资产:

  • About/Author:真人与组织关系可验证。
  • 结构化数据:组织、人物、同一实体的跨平台关联。
  • sameAs/外部一致性:站外实体指向与站内身份一致。
  • 业务证据:可审计的真实存在信号(联系方式、服务边界、公开活动、品牌提及)。

换句话说,HCU 不是“写作风格惩罚器”,更像“信任系统风控器”[6][7]
Tom Capper 提到的一个诊断角度也很实用:当站点“Domain Authority 看起来很高,但 Brand Authority 很弱”,就容易出现合成权威错配,更新周期里风险更大[12]

5)几个关键变量:2026 年还在被误解

5.1 查询分类决定内容策略,不是“关键词密度”

一句话结论:先分 query class,再写大纲;顺序反了,后面几乎都在返工。

MWC 相关公开信息提到一个非常关键的字段:rq_semantic_query_class
它的意义不是“学术分类”,而是直接影响 权重分配、SERP 特性触发、内容结构偏好
换句话说,你写作前先确定 query class,基本等于先拿到“Google 这题想看什么答案形态”的半张卷子[3][5]

公开讨论中常见的 8 类可按下面理解落地:

查询分类 读者在找什么 内容怎么写(最短路径)
Short Facts 一个简短事实 开头 1 句话直答 + 结构化字段(表格/列表)
Comparison 两个方案怎么选 固定对比维度 + 结论先行
Consequence 这件事会导致什么 风险分级 + 证据来源
Reason 为什么会这样 因果链 + 示例
Definition 这个词到底是啥 定义 + 场景 + 常见误解
Instruction 我要一步步完成 编号步骤 + 前置条件 + 失败处理
Boolean 到底行不行(是/否) 先 Yes/No,再给适用条件
Other 混合/本地/复杂意图 按场景拆答案,不要一页塞满

尤其在 AIO 时代,Short Facts / Definition / Boolean 更容易被直接“答案化”。
这类词的目标不能只盯传统排名,而要兼顾“成为可引用来源”的格式:定义清晰、结构稳定、证据可追溯。

执行动作:关键词研究后,先用查询分类器跑一遍(rqpredictor.streamlit.app),再定内容模板与页面结构。

5.2 Freshness 是条件触发,不是全局常驻加成

一句话结论:不是“越新越好”,而是“该新的时候必须新”。

只有在 QDF(Query Deserves Freshness)场景,新鲜度才会高权重触发。
按照公开定义,典型触发往往同时具备三类信号:新闻站密集报道、内容发布频率上升、搜索需求突增[15]
大量稳定需求词长期由老内容占据,本质是“可靠 + 完整 + 体验稳定”的复利。
Ahrefs 2025 的统计也支持这一点:Top10 中 3 年以上老内容占比持续走高,说明“老内容霸榜”不是异常,而是正常机制结果[13]

一个常被忽略的实务点是:
新内容除了争新词,还能提高站级抓取与再评估频率,间接带动老页面流量回升。所以“更新”不总是为了新页排名,也是在给老资产续命。

5.3 lastmod 是“信任开关”,不是更新按钮

一句话结论lastmod 只能在“实质更新”时用,滥用会把这个信号直接用废。

频繁小改动硬改 lastmod,短期也许能骗到抓取,长期会伤信任。
真正有效的是:有实质更新时同步更新,并让正文能被肉眼验证出变化。
你可以把它理解为二元信任:真实大改 + 可验证更新 = 正向;虚假更新或微改频改 = 信号折损
Gary Illyes 对这一点给过非常直白的表述:It's binary. We either trust it or we don't.
结合泄露字段讨论,Google 不只看你“有没有改时间”,还会看你“是否真的有 significant update”,这也是很多站点把 lastmod 用坏后很难再恢复信任的原因[16][2]

5.4 新站不是原罪,异常增长才是高风险特征

一句话结论:系统防的是 fresh spam,不是“新站”本身。

所谓“沙盒”更像反 fresh spam 风控,而非“新域名一律压制”。
公开资料里的 hostAge 变量思路也支持这一点:系统更在意“是否可信地增长”,不是“你是不是新站”。
按 API Leak 常见解读,hostAge 是 host/subdomain 级“首次被看见日期”信号,字段使用整数天数编码(常见说法是以 2005-12-31 为基准的 16-bit 计数),在 Twiddler 阶段用于识别 fresh spam[2][17]
正常增长曲线 + 可信实体补全 + 稳定用户信号,新站一样能起势;
反而“老域换题 + 信号断层”更容易触发系统警惕[3]

高风险触发组合通常长这样:

  1. 新域名 + 短时间批量产文 + 外部信号极弱。
  2. 老域名强行换赛道 + 历史锚文本语义完全断层。
  3. 新建子域突发增长,但品牌与实体信息不闭环。

5.5 降权变量比加分变量更“致命”

一句话结论:先查被扣分,再谈怎么加分。

在很多真实案例里,决定你掉队的不是别人“多了一个加分项”,而是你触发了某个 demotion。公开讨论较多的风险项包括:

  • anchorMismatchDemotion:锚文本与落地主题长期不一致。
  • exactMatchDomainDemotion:精确匹配域名策略滥用带来的风险。
  • serpDemotion:SERP 交互层异常导致的下调。
  • clutterScore:页面杂讯、干扰元素、体验噪声过高。
  • navDemotion:长期行为层出现低满意度模式。
  • productReviewsDemotion:低质量评测内容或证据不足。

这也是为什么“堆内容量”无法对冲结构性风险:你在加分,系统在扣分,而且扣分往往是站点级联。
排查优先级建议也很简单:先查 demotion 再谈增量优化。很多“优化无效”的站,问题不是不够努力,而是先天被扣住了[4]

5.6 关键词落地 5 步流程(可直接照做)

  1. 先分类:给关键词打上 query class(事实/比较/步骤/定义等)。
  2. 再选模板:按分类确定页面结构(直答、对比表、步骤流、因果链)。
  3. 补实体:页面挂接作者、组织、sameAs、证据来源,避免“未定义实体”。
  4. 控信号:只在实质更新时改 lastmod,避免虚假更新。
  5. 查降权:上线后先排查 demotion 指标,再做标题和内容迭代。

6)Parasite SEO(寄生 SEO) 衰退后,实体建设成为主防线

Parasite SEO(寄生 SEO) 的核心定义:在高权威域名(Forbes、LinkedIn Pulse、Medium、新闻网站等)上发布第三方内容,利用宿主站的域名权威(Domain Authority / 排名信号)来快速排名,而内容本身与宿主站的编辑标准或核心主题无关。

结果:简单粗暴的寄生策略(低质内容 + 无关主题 + 批量操作)基本失效

2024 年起 Site Reputation Abuse 逐步算法化后,单纯借平台权重做寄生排名的窗口明显收缩。
现在有效的不是“借壳流量”,而是让 Google 快速确认你是一个真实、可验证、跨平台一致的实体。

过去做法 2026 年状态 推荐替代方案
在 Forbes/新闻站发 affiliate 文 高风险,已死 自己建实体强站 + 真实 PR
LinkedIn Pulse / Medium 大批量发 效果大幅衰减 只发与个人/品牌高度相关的专业内容
付费 guest post 借 DA 易被识别为 abuse 真正价值交换的合作,或放弃
用寄生快速测试关键词 短期仍可,但不稳定 用自己的内容集群 + AIO 优化

核心转变:Google 想看到的是你自己值得被信任,而不是靠“租借”信任。寄生策略现在更适合作为补充(品牌曝光、E-E-A-T 佐证),而非主要流量来源。

6.1 Schema 和实体建设:两派观点如何合并到同一框架

行业里常见两派说法:

  • 一派认为:schema 对 LLM 引用几乎没有直接作用。
  • 另一派认为:schema 是实体建设的核心抓手。

Schema 是什么?(结构化数据)
一句话理解:
Schema 就是你给 Google 写的「说明书」,告诉它页面上每个部分到底是什么意思。
Google 看网页本来像看一堆文字,Schema 就像给文字贴上清晰的标签,让 Google 秒懂。
常见 Schema 类型(举例)
Organization Schema:告诉 Google “这是我们公司”
Person Schema:告诉 Google “这是我们的创始人/作者”
FAQ Schema:把问答做成 Google 能直接提取的格式
HowTo Schema:步骤教学
Product / Offer Schema:产品和价格(FamilyPro 的订阅套餐很适合)
Article / BlogPosting:博客文章

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "Organization",
"name": "xx",
"url": "https://xx.io",
"logo": "https://xx.io/logo.png",
"email": "official@xx.io",
"foundingDate": "2024",
"sameAs": [
"https://www.linkedin.com/company/xx",
"https://www.trustpilot.com/review/xx.io"
]
}
</script>

这两句话并不冲突。更准确的工程化表述是:
schema 不是直接排名因素,但它是实体建设的加速器。

可执行链路可以理解为:

Schema
-> 实体消歧加速(Google 更快确认“你是谁”)
-> 实体权威建立更快
-> Knowledge Graph 识别更稳定
-> LLM 被引用概率上升(间接,不是直接)

2026 年做实体建设,至少补齐 3 个条件:

  1. Notability(可识别性):有足够的独立来源持续提及你,而不是只在自有渠道自说自话。
  2. Entity Home(实体家):有一个稳定 URL 作为“官方真相源”(通常是 About 或组织介绍页)。
  3. Corroboration(交叉确认):官网、社媒、媒体页、知识库里的关键信息一致且可互相验证。

实体建设的 3 个核心要素
Notability(知名度)
有足够多的权威网站提到你(Trustpilot、Reddit、新闻站等)。
Entity Home(实体家园)
一个最权威的页面(通常是 About 页),把你的所有信息说清楚。
Corroboration(交叉验证)
在不同平台上的信息必须完全一致(名称、邮箱、成立时间、Logo 等)

实体验证别只盯 Knowledge Panel。它是高门槛结果,不是每个网站都会拿到。更实用的是分层看进度:

层级 验证指标 难度
第 1 层(基础) 搜品牌名,官网稳定第一 容易
第 2 层(中等) 品牌词结果出现 Brand Card 或 Sitelinks 中等
第 3 层(中上) Knowledge Graph接口可查到稳定实体标识(如 kg:/m/ 较难
第 4 层(高阶) SERP 右侧出现完整 Knowledge Panel 很难
第 5 层(顶级) 主流 AI 系统会自动提及你的实体 最难

对大多数站点来说,做到第 2 层就已经合格;更务实的目标是:
品牌词官网稳定第一 + Knowledge Graph接口能查到稳定实体标识
这比“等一个完整 Knowledge Panel”更可控,也更适合作为周度追踪指标[14]

Google Knowledge Graph(简称 KG)是 Google 于 2012 年推出的结构化知识数据库,核心是用“实体(Entity) + 关系(Relationship) + 属性(Attribute)”的方式来理解真实世界,而不是简单匹配字符串(keywords)。它目前包含数十亿个实体和上万亿条事实,是 Google 从“字符串搜索”转向“事物搜索”的基础架构。
Google Knowledge Graph 就是 Google 的「聪明大脑百科」,它把世界上的人、公司、产品、事件等「实体」以及它们之间的关系像拼图一样连起来,让 Google 不再只懂关键词,而是真正「理解」你在搜什么,从而直接给出准确答案、知识面板和 AI 总结。
简单比喻:
以前 Google 像查字典(只看字面),现在有了 Knowledge Graph 就像请了一个超级博学的老师,能直接告诉你「这是谁」「和什么有关」「为什么重要」

7)2026 年行动清单:把 T*、Q*、P* 变成周执行

下面这份清单可以直接落到周会和看板里。

7.1 必做(高回报)

  1. 查询分类先行:每篇内容先标注 query type,再确定结构模板。
  2. 实体页先补齐:About、Author、组织 schema、sameAs、联系方式一致化。
  3. 品牌查询增长:围绕品牌词 + 修饰词布局可见资产。
  4. Selection Rate 优化:标题-摘要-首屏承诺一致,降低“点进即返”。
  5. 移动优先体验:把移动端视为独立评分切片来优化。
  6. 品牌锚文本经营:让“品牌名 + 主题词”成为外链与提及的自然默认写法。

7.2 该停(低回报/高风险)

  • 短期 CTR 操纵与批量交互脚本。
  • 无实体支撑的批量 AI 内容农场。
  • 纯寄生 SEO(平台发文即排名)的旧路径依赖。
  • 虚假 lastmod 与老域名暴力换主题。
  • 精确匹配域名 + 高速换题 + 锚文本失真这类“高触发组合”。

结语:从“做页面”转向“做可验证的实体”

这波证据合并后,SEO 的底层逻辑其实更朴素了:
Google 最终奖励的,不是“会技巧的人”,而是被真实用户持续选择、并且能证明自己是谁的实体

把这句话翻译成执行框架,就是本文反复强调的三件事:
T* 保证你对题,Q* 保证你可信,P* 保证你被持续选择。
只做其中一项,都会在 2026 年的竞争里越来越吃力。
2026 年真正拉开差距的,不是“谁更懂技巧”,而是“谁把证据链变成了稳定生产系统”。

引用来源

〔注1〕DOJ 反垄断案公开庭审记录(含 Pandu Nayak 作证与 NavBoost 相关问答):United States v. Google(CourtListener Transcript)

〔注2〕Mike King 对 Google Content Warehouse API 泄露文档的技术拆解:Secrets from the Google Algorithm Leak

〔注3〕Search Engine Land 对 Mark Williams-Cook exploit 的报道(含站点质量分、查询分类等公开点):Exploit reveals how and why Google ranks content

〔注4〕Search Engine Land 对 API Leak 后续执行建议与行业解释:How SEO moves forward with the Google Content Warehouse API leak

〔注5〕Mark Williams-Cook 在 SearchNorwich 的公开分享(含 site quality、query class 等):Improving your SEO with conceptual models

〔注6〕Google Search Central 关于有帮助内容与人本内容的官方文档:Creating helpful, reliable, people-first content

〔注7〕Google Search Ranking 系统公开更新时间线(用于对照系统层更新节奏):Google Search Status Dashboard(Ranking)

〔注8〕Rand Fishkin 对泄露文档与行业影响的公开讨论(SparkToro 相关分析与访谈合集):SparkToro Blog

〔注9〕iPullRank(Mike King)关于泄露文档后续字段解读与实操建议:iPullRank SEO Articles

〔注10〕Shaun Anderson(Hobo Web)对 DOJ 证词与 T*×Q*×P* 框架的持续整合解读:Hobo Web SEO Research

〔注11〕Google Search Central Blog:2024 年 3 月核心更新与 Helpful Content 系统并入核心排名说明:Google Search Central Blog

〔注12〕Moz / Tom Capper 关于品牌权威与站点质量错配的公开讨论:Moz Blog

〔注13〕Ahrefs 对 SERP 内容年龄与稳定性的年度数据研究(2025 相关更新):Ahrefs Blog

〔注14〕Google Knowledge Graph Search API(实体识别与消歧验证接口):Knowledge Graph Search API

〔注15〕Amit Singhal 在 Google 官方博客对搜索新鲜度机制的公开说明(2011):Giving you fresher, more recent search results

〔注16〕Search Engine Land 对 MWC 与 Gary Illyes 关于 `lastmod` 二元信任对话的报道与整理:Google on lastmod trust: it's binary

〔注17〕Hobo Web 对 `hostAge`、fresh spam 与 sandbox 机制的公开技术解读(2026 年更新):"There is no Sandbox" - Google Lies, Black Hat Accusations and The HostAge Attribute