
不要忘记稍微修改一下代码,将面包屑序列号替换为任意一个 (*): 修改代码 一切设置完毕后,我们开始解析网站: 我们开始解析网站 如果站点很大,或者您不想向结构添加某些部分,则可以使用排除设置来限制工作: 设置排除 例如,我不想显示“浴缸”类别的所有子部分;为此,我们使用以下代码:https://site page/baths/.* 带星号的点表示任何符号。
当程序解析完站点后,我们需要将接收到的数据导出到Excel。为此,请转到“自定义>>提取”选项卡并使用“导出”按钮导出。 导出时,选择Excel工作簿: 选择 Excel 工作簿 我们打开生成的文件并立即删除 B 列和 C 列,因为我们不需要此信息: 打开生成的文件并立即删除 B 列和 C 列 将 A 列移至 F 列,以便更方便地呈现数据,并删除空的 A 列。
扩展单元格,工作更方便。完成上述所有操作后,您将看到如下内容: 将 A 列移至 F 列 现在我们需要对这一切进行排序。选择包含信息的列,然后单击“排序”按钮,设置如下: 排序 结果: 得到的结果 现在我们删除每列中的所有重复项,只留下第一行包含信息。 也就是说,我们删除除第一个条目之外的所有“主页”,并对其他列执行相同的操作。