生成式人工智能可以从原始沼泽中学到什么

元宇宙头条 2024-08-03 10:00:00 热度 15294

元宇宙头条

11-14 14:28 494288

FT8月1日报道，首先，我们了解到生成式人工智能模型可以“幻觉”，这是一个优雅的说法，意指大型语言模型会捏造事实。正如ChatGPT本身告诉我的那样（在这种情况下是可靠的），LLM可以生成虚假的历史事件、不存在的人物、错误的科学理论以及虚构的书籍和文章。现在，研究人员告诉我们，一些LLM可能会在自身缺陷的重压下崩溃。这真的是我们时代的奇迹技术吗？为此已经花费了数千亿美元。

在上周发表在《自然》杂志上的一篇论文中，一组研究人员探讨了在训练AI系统中“数据污染”的危险以及模型崩溃的风险。在已经摄取了互联网大部分由人类生成的数万亿个词汇后，最新的生成式AI模型现在越来越依赖于由AI模型自身生成的合成数据。然而，这些由机器人生成的数据会由于缺乏多样性和错误的复制而损害训练集的完整性。作者得出结论：“我们发现，在训练中不加区分地使用模型生成的内容会导致生成模型出现不可逆转的缺陷。”

这些模型似乎像神话中的古蛇衔尾蛇（Ouroboros）一样，在吞噬自己的尾巴。

论文的主要作者伊利亚·舒马伊洛夫（Ilia Shumailov），当时是牛津大学的研究员，他告诉我，这项研究的主要结论是，随着高质量数据变得越来越稀缺，生成式AI的发展速度可能会减慢。“论文的主要前提是我们目前正在构建的系统将会退化，”他说。

研究公司Epoch AI估计，目前有300万亿个由人类生成的公共文本token（数据的小单位）足够用于训练目的。根据其预测，这些数据可能会在2028年之前耗尽。到那时，将没有足够的新鲜高质量人类生成数据来填充，而过度依赖合成数据可能会变得问题重重，正如《自然》论文所暗示的那样。

这并不意味着主要由人类生成数据训练的现有模型会变得无用。尽管它们有幻觉的习惯，它们仍然可以应用于各种用途。事实上，研究人员表示，早期LLM在未被污染的数据上进行训练可能会有先发优势，这些数据对于下一代模型来说现在已经无法获取。逻辑表明，这也会增加新鲜、私人、人类生成数据的价值——出版商注意了。

模型崩溃的理论危险已经讨论了多年，研究人员仍然认为有选择地使用合成数据是非常有价值的。即便如此，显然AI研究人员将不得不花费更多的时间和金钱来清理他们的数据。一个探索最佳清理方法的公司是Hugging Face，这个平台由研究社区使用，用于协作机器学习。

Hugging Face一直在创建高度精选的训练集，包括合成数据。它还专注于特定领域的小型语言模型，如医学和科学，这些领域的模型更易于控制。“大多数研究人员都讨厌清理数据。但你必须吃你的蔬菜。在某个时候，每个人都必须为此投入时间，”Hugging Face的机器学习工程师安东·洛日科夫（Anton Lozhkov）说。

尽管生成式AI模型的局限性变得越来越明显，但它们不太可能使AI革命脱轨。实际上，现在可能会重新关注那些最近被相对忽视的相邻AI研究领域，这些领域可能会带来新的进展。一些生成式AI研究人员对在机器人和自动驾驶汽车等体现式AI（embodied AI）方面取得的进展特别感兴趣。

今年早些时候，当我采访认知科学家艾莉森·戈普尼克（Alison Gopnik）时，她建议真正构建基础AI的是机器人学家：他们的系统并非被困在互联网上，而是进入现实世界，从互动中提取信息并根据结果调整响应。

“如果你真的想设计出真正智能的东西，那就是你需要走的路线，”她建议道。

毕竟，正如戈普尼克指出的那样，这正是生物智能最初从原始沼泽中出现的方式。我们最新的生成式AI模型可能会以其能力吸引我们，但它们仍然需要从超过五亿年前最原始的蠕虫和海绵的进化中学到很多。

新闻来源：FT 作者：John Thornhill

编辑：Audrey

（声明：请读者严格遵守所在地法律法规，本文不代表任何投资建议）

元宇宙电商虚拟购物

本文来源：元宇宙头条文章作者：元宇宙头条