关于前沿数据这个话题实际上你是如何获得这些数据的呢？

Reddi2 · Post by **Reddi2** » Wed Jan 15, 2025 8:20 am

是的我认为这是我们这个时代的伟大人类项目之一。如果这有意义的话我认为目前唯一的智慧模型就是人类而前沿数据的生产很像是人类专家与技术和算法技术的结合以生产大量此类数据。顺便说一句迄今为止我们所产生的所有数据互联网也是类似的。在很多方面互联网是机器和人类合作产生大量内容和数据的成果。而未来的情况可能就像增强版的互联网：如果互联网不仅仅是一个人类娱乐设备而是一个大规模的数据生成实验会怎样呢？ v ：你对行业现状有独特的见解你如何描述当前语言模型的状态呢？我很想谈谈市场结构但可以先从你对行业的整体看法开始。

W：是的我认为我们可能正接近语言模型开发的第二阶段末期。第一阶段是早期几乎完全的研究阶段标志性的成果包括最初的论文和对的早期小规模实验直到 - 发布为止。这是一个专注于小规模实验和算法进步的阶段。然后第二阶段佐治亚州 whatsapp 数据大致从 - 开始到现在进入了初始扩展阶段。 - 表现得相当不错接着及其他公司开始大规模扩展这些模型像、h、和等许多公司也加入了这个竞赛将模型的能力提升到极限。过去两三年间几乎完全是执行层面的工作涉及如何使大规模训练顺利进行如何避免代码中的怪异错误如何设置更大的集群等。接下来我认为我们将进入一个研究和执行之间更多交替的阶段各实验室将朝着不同的研究方向发展并在不同时期取得各自的突破因此这是一个激动人心的转折期。

v ：他们已经达到了一个阶段虽然不能说计算资源是丰富的但已经足够支撑模型的发展基本不再是一个限制。而在数据方面所有前沿实验室已经尽可能地挖掘了可用的数据资源。接下来就是在数据方面取得突破对吗？ W：是的基本上是这样。如果你看这三大支柱计算方面我们显然会继续扩大训练集群的规模这个方向是比较明确的。算法方面我认为将会有很多创新。事实上很多实验室现在都在这一领域进行深入的研究。而关于数据你提到的很对我们已经用尽了所有容易获取的公开数据。 v ：是的所有人都可以获得相同的数据。 W：没错很多人称之为“数据墙”我们已经利用了所有公开的数据资源。