Page 1 of 1

开发人员使用 API 来构建

Posted: Wed Dec 18, 2024 5:54 am
by rakib423
利用 Google 的内容仓库 API 进行结构化注释、语义分析和功能标记
阅读时间:17分钟
Google 的内容仓库 API 泄​​露是 SEO 历史上最大的事件之一。其影响将在 新西兰电话 未来几年内持续下去 — — 不仅对于内容策略师和营销人员,对于软件设计人员也是如此。SparkToro 的 Rand Fishkin 、iPullRank的 Mike King 和Search Engine Land的 Danny Goodwin已经就此问题做出了一些出色的分析。以下是我对如何使用它来创建和改进产品的看法。

Image

我们可以从最近 Google 内容仓库 API 的“泄露”中学到很多东西。、提出建议和进行实验。这些信息使我们能够理论化事物的工作原理并更有效地构建。显然,出于竞争原因,如此规模的 API 份额对 Google 构成了巨大风险。

然而,引入共享词汇的巨大价值不容忽视。它可以帮助每个人说同一种语言。

大多数分析此次泄密事件的人都会问的一个问题是:“这个‘排名因素’目前是否正在使用?”

如果这对某些人来说就是最重要的,那就太好了!我尊重这种不想分心的观点。

但如果缺乏内部信息,没人能回答这个问题。我非常尊重 Google,所以我不指望他们会把所有事情都告诉大家。

竞争对手会抢占先机,而如今开发者的行动太快了。正如我们所见,大型人工智能投资机构更看重的是市场份额,而不是短期利润。

但这不是我的观点。我花了数年时间研究专利、开发软件、搜索引擎平台、广告服务器、提供内容策略以及改进网站和网站网络——所有这些都以质量为重点。

我很高兴谷歌的内容分析基础设施如此全面且如此出色。

这不仅对我有帮助,而且也帮助了我身边那些重要的人。这才是最重要的。

共享的词汇胜过恐惧、不确定性和怀疑。

到目前为止,我的两个主要发现与页面和站点嵌入及其潜在用例有关。最有趣的是处理 URL 的概念,然后使其成为经过处理的文本,并带有与页面一起运行的数据结构(这包括语义分析输出、“值得注意”的特征和嵌入)。

免责声明 — 从现在起,我所写的所有内容都是对该 API 的使用方式的推测。我并不是说这就是它的使用方式、实现方式或 Google 搜索的运作方式。作为构建过搜索引擎平台、广告服务器、定向爬虫和许多其他与内容分析相关的产品的人,这就是我直观地使用该 API 来构建产品的方式。

页面嵌入和站点嵌入
页面嵌入和站点嵌入就像是网页和整个网站的数字指纹或摘要。它们有助于传达每个页面和站点的内容。

页面嵌入可捕捉单个网页内容的精髓,而网站嵌入则代表整个网站的整体主题和焦点。这些嵌入可用于各种目的,例如:

查找相似内容:页面嵌入可以帮助识别具有相似主题的网页,这对于内容推荐或竞争对手分析很有用。
评估网站质量:网站嵌入可以根据内容相关性和用户参与度等因素帮助评估网站的整体质量。
检测垃圾邮件:嵌入中的不寻常模式可以帮助标记垃圾网站或低质量网站。
跟踪随时间的变化:嵌入可用于监控网站内容和质量的变化情况。
本摘要重点介绍了页面嵌入、站点嵌入及其作用的关键方面,并借鉴了Google Content Warehouse API 泄​​漏中包含的数据集中的具体示例。

页面嵌入
页面嵌入将单个网页表示为高维空间中的密集向量。这些嵌入捕获了页面内容的语义和相关性。它们用于各种目的,包括:

相似度测量:比较页面嵌入有助于识别不同页面之间的相似内容。例如,在QualityAuthorityTopicEmbeddingsVersionedItem模块中,pageEmbedding存储捕获各个页面内容的嵌入,从而实现相似度比较。
内容聚类:具有相似嵌入的页面可以分组成聚类,从而便于识别内容主题和话题。
站点嵌入
网站嵌入将页面嵌入的概念扩展到整个网站。它们通过聚合网站内所有页面的嵌入来生成,从而全面呈现网站的整体内容。网站嵌入可用于:

网站相似性和关系:比较网站嵌入可以识别不同网站之间的关系。这可用于查找高质量网站、低质量网站或具有相似主题内容的网站的集群。例如,QualityNsrNsrData模块包括site2vecEmbedding和site2vecEmbeddingEncoded字段,存储站点嵌入的压缩表示,以管理数据大小,同时维护详细的站点级信息。
质量评估:网站嵌入有助于评估网站的整体质量。模块siteScore中的指标QualityNsrNsrData根据各种因素(包括内容质量和用户参与度)提供汇总质量分数。