道德与谨慎的网络抓取

rumana777 · Post by **rumana777** » Sun Apr 06, 2025 9:17 am

如上所述，除了从网络上收集公共网络数据的法律方面，还有其他方面与网络抓取的道德有关。随着时间的推移，这些原则成为该领域参与者不成文的行为准则的一部分。主要考虑因素如下：

速率限制。数据提取是通过向网站提交请求来执行的。网站请求过载会影响其性能，应避免这种情况。

专用 API。请记住，有些网站提供用于访问其数据的 API。

代理。用于网页抓取的代理应符合道德规范。

负责任的企业将道德的网络抓取视为一种承诺，与成为公共电话号码库网络数据业务中信誉良好的参与者密不可分。

去年，一些领先的网络数据聚合公司发起了一项道德网络数据收集倡议，旨在鼓励对话并提高消费者和公司的数字安心。此后，他们公布了一系列道德网络数据收集原则，例如：

谨慎。这意味着数据收集公司应该谨慎并意识到数据的潜在滥用。

社会责任。公司绝不应该出于可能危害社会的目的收集数据。有道德的数据收集公司还会通过向组织和项目（如研究机构或非政府组织）提供数据来为其提供支持。

网络抓取和人工智能
高质量的网络数据有助于将人工智能技术的关键类型之一——大型语言模型 (LLM) 推向如今的水平。训练 LLM 以理解人类语言并生成情境感知响应需要大量数据。

例如，GPT-4 的前身 GPT-3 的训练需要45TB 的文本。来自互联网的公开信息是用于训练人工智能的关键信息支柱之一。

预计未来几年人工智能市场将呈指数级增长。这自然引发了关于使用网络数据训练人工智能和创建人工智能产品的问题。

人工智能训练和版权法
有人认为，这项蓬勃发展的技术背后的公司未经许可抓取在线数据来训练人工智能和创造新产品，违反了版权法。此外，还有人认为，像 ChatGPT 这样的大型语言模型会使用训练数据集中的所有数据来生成响应，有时会“模仿”原始内容。

为了更好地理解双方的争论，让我们来看看自 OpenAI 推出领先的法学硕士之一 ChatGPT 并向公众开放以来发生的一些案例。