很多基本情况下

Collaborative Data Solutions at Canada Data Forum
Post Reply
zihadhasan011
Posts: 252
Joined: Tue Dec 24, 2024 3:18 am

很多基本情况下

Post by zihadhasan011 »

对吧? 兰德:我们对此有点奇怪。 本:是的。 兰德:或者至少我们对此感到惊讶。所以,这就是我们分享 它的原因。那么,让我们回顾一下过去,谈谈整个 ……对于那些说“我不明白你 说它比关键词密度更复杂,或者 比普通关键词指标或关键词 使用更复杂”的人。关键词密度就像是 文档中所有单词中使用次数的百分比。 本:是的。 兰德:玩这个游戏非常简单。我的理解是,它对 IR 来说有点没用。 本:嗯,我的意思是,它对你有很大帮助。我的意思是,至少你 在返回给人们的文档中有这个词。


但是,喜欢你的博客 本周早些时候的一篇文章显示,在 ,你无 vnpay 电话号码资源 法仅通过这样做来判断哪些内容更好。 兰德:是的。因此,20 世纪 60 年代的 IR 人员提出了 TF-IDF 方法, 这本质上就像查看正在使用的术语 在整个语料库中是否更频繁。因此,如果你 是一个图书馆,他们会查看图书馆里的所有书籍。或者如果 你是一个卡片目录,他们会查看所有这些。现在有了搜索引擎,他们会查看网络 上的所有文档。本:是的,没错。所以,这里最大的直觉是他们正在搜索多个单词。


很少使用的单词实际上是最重要的单词。因此,如果你正在搜索SEOmoz 大楼,那么包含大楼和 SEOmoz 的文档可能非常相关。包含“大楼”或“SEOmoz”的文档相关性要小得多。所以,基本情况是,你对非常常见的单词有偏见。兰德:对。所以我喜欢你举的 Lady Gaga 的例子,你说,好吧,包含 Gaga 的文档可能比只包含 lady 的文档更相关,尽管 lady 和 Gaga在短语中都是四个字母的单词。本:是的,没错。兰德:好的,很酷。所以我们发展到了 TF-IDF 的东西。
Post Reply