2015年10月,仅网站级别的Yandex.Metrica数据量就高达10.65万亿行。 2018年,这一数字进一步增加。最大的页面包含 349 列。每次 Web 资源所有者在 Metrica 中打开页面时,都会向 ClickHouse 发送多个请求。总的来说,数据库每秒接收大约 2000 个请求。峰值信息处理速度超过每秒2TB。
ClickHouse 易于扩展:您可以添加新服务器而无需重建集群。所有可用服务器的计算能力都可以连接起来处理单个请求,从而确保最高的数据处理速度。
清单:如何在与客户谈判中实现你的目标
ClickHouse 的另一个有用的功能是 塞浦路斯电话号码数据 容错。即使某些服务器发生故障,系统也不会停止。为了实现这一点,信息在地理分布的数据中心被复制。
ClickHouse 可以让你显著降低存储和处理信息的成本。这里的信息按列存储,以便实现有效压缩。 ClickHouse 有一个矢量查询引擎:信息不仅被存储,而且按列处理,从而可以最佳地利用处理器和内存。
磁盘上的信息被重新排序(例如,按站点和日期),以便只需要从磁盘读取一小部分行即可生成报告。同时ClickHouse提供了在线向表中添加新信息的功能。
ClickHouse 系统由 Metrica 团队创建,旨在满足其要求,也可用于解决其他 Yandex 任务。因此,DBMS 用于 Yandex.Market、广告技术、服务器监控系统和内部业务分析。 ClickHouse 相对容易学习,因为所有查询都是用 SQL 进行的。
Yandex.Metrica 中的拒绝是什么意思?
任何搜索引擎的目的都是为了盈利。使用搜索引擎的人越多,公司的收入就越高。在这方面,Yandex 正努力为用户提供最优质的搜索结果,变得越来越受欢迎。
事实证明,搜索引擎一直在努力寻找最有用的网站。它看起来像这样:用户在相应的行中输入搜索查询,收到结果并依次点击每个结果,尝试找到必要的信息。
如果在一段时间之后,某人再次开始在搜索结果中搜索结果,那么对于系统来说,最后一个网站会自动变为质量较差的网站,并且 Yandex.Metrica 会拒绝它。而停止该请求搜索的站点对 Yandex 来说是有利的。
也就是说,Yandex.Metrica 会拒绝那些人们访问但停留时间不超过 15 秒的网站。网站跳出的次数越多,其质量就越低,受到系统过滤的可能性就越大。
下载有关该主题的有用文档:
-
- Posts: 851
- Joined: Sat Dec 28, 2024 3:13 am