文心一言正式亮相,百度的诺言实现了

进入 2023 年,ChatGPT的火爆仿佛是一次预热,这个智能聊天工具的技术很简单,它真正让所有人都感到吃惊的是背后大模型的创建和学习能力。它将人们对AI的期待提升到了一个高度,大模型成为全球科技竞赛兵家必争之地。百度还义无反顾站了出来,作为中国公司第一个站在全球AI科技赛场上。

3月16日,百度在北京总部召开新闻发布会,百度创始人、董事长兼首席执行官李彦宏宣布百度大语言模型“文心一言”开始邀请测试。

中国有了自己的大AI模型,这也是“大厂”向Open AI这样的创业公司的宣战。但为什么是百度?文心一言的诞生对百度乃至中国互联网意味着什么?

文心一言有什么不一样?

有ChatGPT的火爆在前,大家对文心一言的期待也很高。而文心一言做到似乎也不负众望,在第一次正式亮相的时候就向大家展示了其不仅具备其它AI大模型所具备的典型能力,也同样做到“人有我有,人有我优,以及人有我待优”。

从新闻发布会现场演示来看,文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等方面有突出能力。

文心一言正式亮相,百度的诺言实现了插图

在文学创作能力上,文心一言可以做到总结、分析、内容、检索,延伸至检索增强。而这得益于百度多年以来成熟的搜索业务提供的丰富数据库。基于搜索业务积累,百度有世界上最大的知识图谱,一直致力于给用户提供唯一答案。这一切让文心一言回答准确性及生成结果的可信度得到提升。

在这个能力的基础上,文心一言在起名字、写新闻稿、写标语等能力上的延伸智能涌现。文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。因此百度在中文语言的处理上,处于独一无二的位置。

有研究表明,数据规模大,参数达到千亿级,大模型就可能发生“智能涌现”,涌现出知识和逻辑推理能力。不仅仅是数据规模,百度的数据形态也最贴合回答和生成需求。在百度搜索中,问答和生成类的搜索请求占比很高。因此文心一言大模型,在自然语言问答和创意内容生成上有突出表现。

当然,作为一个大语言模型的生成式AI产品,文心一言也具备的复杂推理,把问题拆分为子问题解决的能力。

如果说以上都是一个AI模型的必备能力,那文心一言作为诞生出中国的AI模型,还具备了其独特之处。

文心一言的中文语言处理上独一无二,扎根中国市场,理解中国文化,最先进的自然语言处理能力。同时,文心一言具备图片、音频及视频等多模态生成能力。多模态是生成式AI一个明确的发展趋势。未来随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力,也会不断提升。

文心一言正式亮相,百度的诺言实现了插图1

为什么是百度?

文心一言是全球所有大厂中第一个做出来的基于大语言模型的生成式AI产品。谷歌、Meta及中国众多互联网大公司都觊觎AI领域已久,为何只有百度能够最终实现它的诺言?

发布会上,这个问题得到了解答。

文心一言的诞生源自百度从市场与合作伙伴身上发掘的需求。百度的很多产品,从搜索到智能云,再到自动驾驶,市场和合作伙伴都有明确需要。

此前百度财报中数据显示,百度AI产业化成果初显,百度智能云已连续四年居AI公有云市场第一。也有数据显示目前已有超400家企业宣布加入文心一言生态圈,同时百度多项主流业务将接入文心一言,包括百度搜索,以及基于百度智能云的智能语音助手小度、智能驾驶阿波罗(Apollo)等。

作为中国技术创新的领导者之一,百度在自然语言处理领域的能力领先中国互联网。让机器做到像人一样理解和运用自然语言,是人工智能的核心问题之一,这个背后也需要大量的资源与技术投入。

文心一言的诞生并不是朝夕之间,它是百度多年大量投入、累积研究的结果。

2014年百度开始涉足智能驾驶领域,2015年上线世界首个大规模神经网络机器翻译系统,比Google早了一年多。2016年百度正式发布“百度大脑”并开源中国第一个深度学习框架飞桨。飞桨的出现打破了Google和Meta的垄断,现已跻身全球前二。

目前已经有数百万开发人员将飞桨用于AI开发。AI预训练成本高昂,框架层和模型层之间的协同作用,以及全栈AI能力能够构建最高效的大模型,并支持从搜索到内容生成的各类应用,或任何可以显著提高生产力的垂直领域。

2018年百度自主设计、2019年流片成功、2020年实现量产、2021年升级的百度昆仑AI芯片也已经得到大规模应用。此外,百度还研发出鸿鹄语音芯片,打破了卡脖子问题,使中国公司不再完全依靠外来输入。

国际欧亚科学院院士李世鹏认为,在一些核心软件领域,国产基础软件受重视的程度并没有想象中那么深入。基础软件的重要性,与底层的芯片算力同等重要。百度从“芯片”到“基础软件”的技术架构,有效地扩展了人工智能技术的通用性,使得 AI 技术的开发和应用门槛不断降低。透过百度等头部公司的努力与取得的成果,我们看到了更多国产基础软件努力向上的动作。

百度各业务都有AI应用,在AI的三要素,算力、算法和数据上,百度也拥有领先优势,而且大多都源于日常业务累积。文心一言的官宣,恰恰是百度长期在AI技术与大模型领域投入的体现。

2019 年,百度推出了文心大模型ERNIE 1.0。ERNIE 3.0目前每天接受数十亿用户的搜索请求和其他百度移动生态app的训练。随着时间的推移,文心一言将基于一个庞大的、标注清晰的数据池,实现快速的改进和学习。

在搜索方面,自2019年3月以来,文心大模型在改进搜索结果方面发挥了重要作用,带来排名改进和多模态搜索能力;在云方面,AI专业知识为制造、能源等传统行业提供特定的AI解决方案和应用;智能驾驶业务是百度AI能力护城河又一证明,比如,guidehouse自动驾驶产业排名,百度位居全球领导者之列,是中国唯一上榜企业。

但更深层次的原因是人类进入人工智能时代后,IT技术的技术栈发生了根本性的变化。过去分为芯片层,操作系统层和应用层,现在则可以分为四层:芯片层、框架层、模型层和应用层。

百度是全球为数不进行全栈布局的人工智能公司,从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术。文心一言位于模型层。

文心一言正式亮相,百度的诺言实现了插图2

百度在技术栈四层架构中,可以实现端到端优化,大幅提升效率。尤其是框架层和模型层之间,有很强的协同作用,可以帮助构建更高效的模型,并显著降低成本。

当然能够在软硬件各个层面都具备文心一言诞生的基础,这一切都来源于百度常年在AI领域马拉松式的研发投入。

数据显示,百度在近十年累计研发投入超过 1000 亿元。2022 年百度核心研发费用 214.16 亿元,占百度核心收入比例达到 22.4%。

高研发投入让百度储备先发优势,面对大模型惊人的算力需求做到游刃有余。跑通一次100亿以上参数量的模型,算力至少需要1000张GPU卡。GPU芯片中领先者如A100售价达1万美元, 微软Azure云服务为ChatGPT布署了超过1万枚英伟达A100 芯片。即使不使用顶级芯片,按照一张GPU五万元的市场均价计算,1000张GPU意味着单月至少5000万的成本。业界测算,gpt-3单次训练成本至少460万元。

在中国互联网大公司中,鲜有人愿意如此长期、大规模地对技术进行投入。而百度做到了,文心一言的诞生也因此顺理成章,它是百度追逐技术改变世界的产物,也或许能真正改变中国AI产业的发展。

文心一言将如何改变世界?

从用户层面上来说,文心一言可以服务亿万用户,尤其是中国用户,有数据显示在未来十年中,人工智能可以将知识工作者的生产力提高4倍以上。文心一言开始使用后,将建立真实用户反馈、开发者调用和模型迭代的飞轮,进步速度将非常快。

对于企业和AI产业来说,很显然,大模型是没有人想错过的巨大机会。

文心一言不仅会影响搜索或者互联网公司,而且会影响到每一家公司。文心一言的定位是人工智能基座型的赋能平台,通过新技术帮助企业创建最好的客户体验,让任何公司有机会离客户更近,从而深刻地影响千行百业中每一家公司,实现智能化变革、效率提升,获得更强的竞争优势,创造更大的商业价值。

第一类是大模型基础设施公司。这类公司其商业模式是MaaS,通过云计算输出能力和服务。文心一言,将根本性地改变云计算行业的游戏规则。之前企业选择云厂商更多看算力、存储等基础云服务。未来更多会看框架、模型,以及模型、框架、芯片、应用这四层之间协同。

第二类是进行行业模型精调的公司,这是通用大模型和企业之间的中间层,它们通过调用通用大模型能力,为行业客户提供解决方案。百度文心大模型,已经在电力、金融、媒体等领域发布了10多个行业大模型。

第三类是基于大模型底座进行应用开发的公司,即应用服务提供商。基于文本生成、图像生成、音频生成、视频生成、数字人、3D等场景,文心一言会造就一个产业级现象,创造更大的创业空间。

据悉,3月16日起,百度智能云将面向企业客户开放文心一言API接口调用服务,搜索“百度智能云”进入官网,即可申请接入并体验文心一言能力。

这是AI行业并行爆发,波涛汹涌的时刻。大模型对各个产业的深层改变,或许包含很多维度:从交互上、从数据库上、从本地和云的关系上、从商业核心资产壁垒上,从生产力供给的根本性变化上……

就如李彦宏所说,“我们相信,人工智能会彻底改变我们今天的每一个行业。AI的长期价值,对各行各业的颠覆性改变,才刚刚开始。未来,将会有更多的杀手级应用、现象级产品出现,将会有更多的里程碑事件发生。”

文心一言的时代或许已经到来了。

原文链接:https://www.jiemian.com/article/9079268.html

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享