资讯中心
本页位置: 主页 > 新闻资讯 > 国际信息 >

大模子真的在吞噬人类的一切数据吗?-国际黄金

作者: 正大期货   来源:https://www.xasswkj.com/    阅读次数:     2024-07-11 15:16 【字体:

在弗兰克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隐藏着一种无价之宝:香料。 这种神秘物质使太空旅行成为可能,能延伸寿命,并具有扩展意识的效果,是宇宙中最名贵的

在弗兰克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隐藏着一种无价之宝:香料。

这种神秘物质使太空旅行成为可能,能延伸寿命,并具有扩展意识的效果,是宇宙中最名贵的财富。“谁控制了香料,谁就控制了宇宙”。正如香料在《沙丘》宇宙中占有着至关主要的职位一样,在当今的天生式人工智能时代,数据也承载着类似角色。

就像《沙丘》中对香料的争取,现实天下里各方势力也在为数据资源睁开猛烈角逐。海量的数据犹如埋藏在数字天下沙丘下的“香料”,蕴藏着难以估量的价值。而那些能够高效采集、治理和行使数据的企业,就像小说中控制香料的势力,在这场数据争取战中占有着优势职位。

犹如香料在《沙丘》宇宙中的供应并不是无限的若是开采太过或生态系统受到损坏,香料的产量可能会大幅削减甚至耗尽,数据也可能被耗尽。凭证非营利研究机构Epoch AI的最新论文,大语言模子会在2028年耗尽互联网文本数据。

大模子真的在吞噬人类的一切数据吗?我们是否正处在一个看似无尽的数字香料怒潮中,不停地向这些饥渴的大模子提供养分? 

人类天生的数据量有限,一旦这些文本数据被耗尽,可能会成为约束语言模子继续扩展的主要瓶颈。相关论文以为,语言模子将在2026年到2032年之间行使完这些数据,但若是思量到利润*化,太过训练数据可能会导致数据在2025年就被用完。

月之暗面首创人杨植麟也在近期表达了类似看法,他以为大模子通向AGI*的挑战是数据。杨植麟示意,“假设你想最后做一个比人类更好的AI,但可能基本不存在这样的数据,由于现在所有的数据都是人发生的。以是*的问题是怎么解决这些对照稀缺、甚至一些不存在的数据。”

凭证Epoch研究员Pablo Villalobos的看法,OpenAI在训练GPT-4时使用了约莫1200万个token,GPT-5需要60到100万亿个token才气跟上预期的增进。要害在于纵然用尽互联网上所有可能的高质量数,仍然需要10万到20万亿token,甚至更多。

面临云云重大的数据需求,合成数据也是一个学术界和产业界都在实验的主要偏向。合成数据基于现有数据举行扩充,这种能力对未来的训练数据规模至关主要。不外,用AI天生的数据举行训练也存在一些局限性,例如可能导致模子溃逃等问题。

现在,大模子厂商主要从网络上抓取科学论文、新闻文章、维基百科等公然信息来训练模子。从久远来看,仅依赖新闻文章和社交媒体等内容可能无法维持人工智能的生长需求。这可能迫使企业最先行使一些敏感的私有数据,如电子邮件、谈天纪录等,或不得不依赖于谈天机械人自身天生的质量不高的数据。

01

数据不够用是“杞人忧天”?

没有数据就无法训练大语言模子,但数据真的不够用了吗?对于这一问题,也有人持有纷歧样的看法。

星环科技孙元浩以为,这是一个“假新闻的判断”。在他看来,除了现有互联网的存量数据,各个企业内部另有大量的数据没有被行使,“现在数据多到远远跨越模子可以处置的量”。

“大模子结构和训练方式都不是隐秘了,而语料散落在种种地方,需要把现有语料整理起来训练或微调模子,事情量异常伟大,这是现在*的挑战。”孙元浩告诉硅星人。

其中的一个主要问题,是数据处置范式从结构化数据到非结构化数据的转变。结构化数据,例如数据库中的表格数据,有明确的字段和花样,易于存储和查询。而文本文档、条约协议、课本等非结构化数据,虽然包罗厚实的信息和知识,但由于缺乏统一的花样,难以直接存储和检索,企业内部的非结构化数据往往也需要更专业的数据标注处置。

为此,星环试图通过提供包罗语料处置、模子训练、知识库建设在内的工具链,提升企业的数据处置能力。“我们意识到不能能一个模子通晓各个领域,企业焦点隐秘是不能能让你知道的,我们定位为提供工具帮你做训练,你自己炼一个模子。”

挖掘企业内部数据主要性的另外一个例证是摩根大通拥有150PB的专有数据集,而GPT-4仅在不到1PB的数据上训练。不外两者的数据在质量、类型和用途上存在显著差异。大模子面临的挑战主要在于获取高质量、多样化且正当可用的训练数据,而非简朴的数据量不足。

对于“数据荒”,数据服务商景联文科技首创人刘云涛也表达了类似看法。“我们现在真实数据都来不及处置,数据不够是杞人忧天了。”他向硅星人示意,“我预估洗完之后,中国的高质量数据也许是有150TB,天下上另有许多个国家。”

他以为现在存在的问题主要在于高质量的数据的问题,涉及到数据洗濯、数据工程。

刘云涛示意,大模子时代的焦点转变首先是数据量变大了,“以前一个题库10 万、20万道已经很大的项目。现在以亿为单元,手艺处置能力就变得异常主要了,由于你不能能靠人工。”

第二个转变在尺度环节,需要引入专业领域的人工标注,“原来人工标注和自动化标注是一个平行的关系,那现在更像是手艺标注放在前一轮,后一轮是专家级的标注。”

专家级标注指的是一种更高级别、更细腻的人工标注历程,这种标注事情通常需要专业知识,能够对自动化标注的效果举行校正和优化,以确保数据集的高质量。与此前的用低成本劳动力完成的简朴数据标注事情也有所差异。据称,OpenAI内部就有一个几十名博士级其余专业人士组成的团队来做标注。

大模子厂商在处置数据时遵照的流程通常包罗几个环节:首先,数据从各渠道获取被获取后,进入数据工程部门。数据工程师会对数据举行洗濯和预处置。接着,处置好的数据会被交给算法部门,算法部门会行使多种方式进一步处置,包罗调参、通过监视学习对模子举行微调(SFT),以及使用人类反馈来强化学习模子(RLHF),经由这些步骤处置后的数据,最终会被应用到详细的义务或产物中。

在这一历程中,大模子厂商的焦点的需求是从漫衍在各处的数据中提炼出可以用于微调、训练或连续优化模子的高质量数据。

Scale.AI专注于为企业客户提供训练数据的数据标注开发。该平台接纳自动化标注、半自动化标注和人工审核等先进手艺,提高标注的速率和准确性,并提供数据治理和质量控制工具。

在刘云涛看来,Scale.AI的焦点不在于有许多数据,而是拥有快速处置数据的能力。“Scale AI确立了一整套数据洗濯的流程,另外还确立了一套数据引擎,能形成真正的数据飞轮,这是个流程性的手艺的问题。”

02

开源数据的逆境

225亿,上海最大AI母基金落地

大语言模子之以是能够展现出惊人的明白和天生能力,是由于从海量的预训练数据中学习了厚实的天下知识。而开源数据,如网页、书籍、新闻、论文等,正是这些预训练语料的主要泉源。通过开放共享,开源数据为模子提供了普遍而多样的知识泉源,使其能够学习到人类社会的方方面面。可以说,没有开源数据的支持,大语言模子就难以获得足够的“知识养料”来实现快速生长。

由社区和非营利组织推动的开源数据项目,为语言模子的训练提供了厚实多样的语料,对推动了自然语言处置手艺的生长至关主要。智源研究院林咏华告诉硅星人“若是没有Common Crawl,整个大模子的生长都市延后。”

她也指出了一个相关的问题,外洋自愿者介入的开源数据集的建设,如BookCorpus、古腾堡工程都积累数年时间,而在海内很少有人做类似的事情,这就造成了中文数据的数据孤岛问题。

人工智能开源开放数据平台OpenDataLab相关认真人告诉硅星人,数据资源持有方普遍存在的一个挂念是无法明确数据开源行为对自身的价值,单纯的数据开源对于中小型企业很难形成短期的回报。“从投资与回报角度看,企业若是开源模子,其带来的手艺的迭代和创新,对企业来讲无疑是一种回报,而开源数据则险些是纯‘利他’的行为,很难有现实的收益。”

因此,相较于外洋由非营利机构推动,海内各种事业单元在推动数据开源的历程中饰演了十分主要的角色。不外,随着用户规模和数据需求的增进,也为各种数据开源社区的资金与存储等带来了现实挑战。

OpenDataLab从公然数据收录、开源平台建设、数据工具研发、高质量原创数据集宣布、生态互助等多方面入手,正在着手推动解决研究和开发中数据需求。

OpenDataLab示意,中文大规模数据集在开源水平、规模以及质量方面与英文数据集相比存在差距,这在一定水平上制约了中文自然语言处置手艺的生长。现在OpenDataLab已经团结多家机构,宣布了一系列原创高质量的大规模AI数据集,他们也希望能与更多机构一道,通过互助来约请更多人介入到数据开源事业中来。

在公共数据开放和社会气力方面,中国与美国存在一些差异,美国政府在公共数据开放中饰演着主要角色,致力于“应开尽开”。政府确立专门的AI训练数据开放平台,对数据举行标识、洗濯、标注等处置,并提供便捷的检索和接口服务。社会气力则整合政府开放数据与网络公然数据,以开源为主形成高质量训练语料,并在行业大模子中孝顺专业性。

中国的公共数据共享和行使水平上仍有不足。部门领域如天气、司法的数据开放不如美国充实,在开刊行使中也缺乏API支持。社会气力主要连系外洋开源数据和海内网络公然数据形成训练集在行业大模子中,社会气力虽有孝顺,但受限于专业门槛高、企业共享意愿低、公共数据开放不足等难题。

03

数据采集中的“灰度”

天生式人工智能的生长主要依赖大模子以及对大模子的数据训练,数据训练又离不开大规模的数据爬取。数据采集是产业链的起点,涉及从互联网、社交媒体、公共数据库等多个渠道网络原始数据。这一环节需要遵守数据隐私和版权律例,确保数据泉源的正当性。随着手艺的生长,自动化工具如网络爬虫被普遍使用,但同时也带来了数据隐私和平安等问题。

五号雷达相关认真人童君告诉硅星人,数据爬取方面,Robots协议在网络数据获取是一种行业内的约定俗成。不外Robots协议遵照基于爬虫的自觉性,并不能从基本上阻止数据的获取。“这个行业水下的产业占80%,好比场外项目制的数据购置,数据举行二次加工之后,源头的数据是来自于那里?这个器械没设施追溯。”

景联文首创人刘云涛则建议从“灰度”的角度来看待这个问题,“一个全新的行业,无论从国家到企业、小我私人都在探索,一定是有灰度的”。他以为,在大数据和人工智能的新兴行业中,存在着一些灰色地带,主张应该用手艺手段将灰色地带酿成白色,正当合规。

景联文用手艺手段如SFT某人工标注,将获取的数据转化为可交付使用的数据,确立高质量大模子训练数据集。他打了个譬喻,就像“别人在野地里采摘的白菜,经由他们的加工,酿成了预制菜。”

随着数据被界说为新的生产要素,天下各地纷纷确立了大量的数据生意所和生意中央。成为解决行业内的灰色地带问题,提高市场介入者的平安感的一种新的机制。

住手现在,海内已确立了跨越40家数据生意所,包罗上海数交所、贵阳大数据生意所和北京国际大数据生意所等。这些生意所通过搭建数据要素流通平台,提供数据供需对接笼络机制,以释放数据要素的价值。

刘云涛以为,数据生意所是一个显著中国特色的新兴市场,但确立一个有用的数据生意系统还需要大量的事情来完善。“能不能真正解决数商和购置方之间的问题?若是生意所只是让我们支出,不能给我们带来收益,那就没有意义,这个事是需要时间的。”

五号雷达童君也示意,“大模子厂商基本上不会去生意所买数据。不是说今天我来做大模子,然后买一堆数据回来。”

据先容,数据生意市场现在存在多种模式。有的大公司确立了平台,提供数据产物和数据集,主要以API形式供企业购置服务。此外,还存在针对特定项目的定制化数据购置模式。在这种情形下,买方领会数据的泉源(如气象局)。并直接与拥有数据的机构或企业举行生意。

04

“是时刻把数据Scale Down了”

LLaMA3通过将训练数据从2T增添到15T,纵然模子架构保持稳固,模子性能获得了显著提升,然而,这种“暴力扩展”的方式虽然有用,但也面临着边际效应递减和资源消耗增添的问题。

语料规模并非越大越好,而是高信息密度的语料规模越大越好:Common Crawl是400TB的数据集,包罗了互联网上数十亿网页,内容异常普遍但未经洗濯。而C4则是对CC举行了过滤噪声、重复内容等洗濯后的305GB数据集。经评估发现基于C4训练的模子性能优于CC,这既说明晰数据洗濯的主要性,也说明晰语料规模不能一味追求大。

近期,DCLM项目组,从Common Crawl中乐成提取并洗濯出240T的数据,也为数据规模增添的可行性提供了新的证据。这一希望为数据的“Scale Up”战略提供了支持,但同时也提醒人们注重到数据处置和洗濯背后的盘算成本。清华博士秦禹嘉示意,前scaling law时代我们强调的是scale up,即起劲追求数据压缩后的模子智能上限,后scaling law时代人人比拼的是scale down,即谁能训练出“性价比”更高的模子。

例如,PbP团队行使较小模子的性能评价来过滤数据,从而提升大型模子的训练效果和收敛速率。类似地,DeepSeek通过使用fastText来洗濯高质量数据,为特定场景下的模子训练提供了优质数据。

这些研究功效示意,通过彻底优化数据的质量,小型模子的训练效果可以靠近或等同于使用大规模“脏数据”训练的大型模子。这不仅树模了数据洗濯在提升模子效率中的主要性,也说明在某些情形下,模子的参数规模并非越大越好,要害在于若何有用地行使每一份数据。

随着AI领域的不停生长,这种对“效率”和“质量”的追求正在成为研究和实践中的新趋势。未来,数据处置的方式,包罗数据去噪、改写预训练数据等战略,将成为推动大模子生长的要害因素。同时,这也意味着数据质量可能成为权衡AI模子性能的新尺度,而不仅仅是数据规模。在当今快速生长的人工智能领域,数据成为了推动手艺前进的基石,它的角色越来越像《沙丘》中珍贵的香料——无处不在,价值伟大。随着对数据需求的增进,若何有用地网络、处置和行使这些“数字香料”成为了要害问题。从提高数据质量到拓宽数据获取渠道,未来的AI生长不仅取决于我们若何应对这些挑战,更在于我们若何在数据的海洋中探寻新的可能。正如《沙丘》展示的那样,真正的气力来自于对这些资源的明白和行使——谁解决好了数据问题,谁就拥有了未来的钥匙。

《沙丘》中的领航员通过食用香料获得了展望未来的能力,人工智能算法通过处置大量数据集,发现模式和趋势。在《沙丘》宇宙中,人类在香料夹杂物的影响下进化,获得新的能力并履历意识的重大飞跃。同样,人工智能甚至AGI的生长也可能会为人类带来类似的深远影响。

只不外若是知道十年前在社交媒体上宣布的内容,有朝一日会成为推动手艺提高的“香料”,或许我们会加倍稳重地看待自己的数字足迹。


免责声明:此消息为 正大期货原创或转自合作媒体,登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,请自行核实相关内容。文章内容仅供参考,不构成 正大期货投资建议。