人工智能训练和版权法 | 我的电话号码

有人认为，这项蓬勃发展的技术背后的公司未经许可抓取在线数据来训练人工智能和创造新产品，违反了版权法。此外，还有人认为，像 ChatGPT 这样的大型语言模型会使用训练数据集中的所有数据来生成响应，有时会“模仿”原始内容。

为了更好地理解电报粉双方的争论，让我们来看看自 OpenAI 推出领先的法学硕士之一 ChatGPT 并向公众开放以来发生的一些案例。

2023 年底，《纽约时报》起诉 OpenAI使用其内容训练 AI，这是第一家这样做的美国主要媒体。此后，其他几家媒体也起诉了 OpenAI，声称该公司使用其文章训练 AI 系统违反了联邦版权法。

一些媒体公司采取了不成瘾治疗中心的内容营销同的做法。例如，《金融时报》与一家生成式人工智能公司达成了内容许可协议，允许他们使用《金融时报》的内容来开发人工智能产品。

而站在讨论另一方的 OpenAI 则认为，使用公共网络数据来训练 AI 是合理使用。从这个角度来看，许多新闻出版物都是向公众开放的，无需登录或付费墙，因此，它们应该被视为公共网络数据。网络上的其他内容也是如此，例如维基百科文章、公司网站、社交网站等。

与此同时，人工智能无疑正在彻底改变我们的工作和经商方式。它还为社会提供了可用于造福社会的工具，帮助研究人员和科学家找到解决环境、医疗和其他全球挑战的解决方案。此外，许多营利性人工智能公司免费提供强大的模型，例如 GPT-3.5 或 Gemini Pro。

但它也伴随着挑战。

这不是非黑即白的问题。不再需要讨论人工智能系统成为我们个人和职业生活中不可或缺的一部分的重要性。人工智能市场增长的预期轨迹证明了这一点。

然而，仍然有必要建立行业特定的原则，以构成 LLM 培训中网络数据的可接受使用，并在 AI 培训中区分好坏。

这些原则可能会随着时间的推移而演在短信中变和变化。但它们应该以达成共识和共识为目标，让争论双方的实体能够成功运作并平衡商业利益，同时也为公共利益创造人工智能创新的空间。

最后的想法

虽然抓取公共网络数据并将其用于训练人工智能的伦理问题引发了许多讨论，但有一些合法的案例证明了这些新技术的价值和重要性。

尽管如此，遵循道德网络抓取的原则至关重要，更重要的是，随着新技术和挑战的出现，继续努力维持所有相关组织之间的和平对话。

‍