在自然语言处理领域,常用语言模型(LMs)可以实现为字符(tokens)序列分配概率。
最近,LMs 还在对编程语言编写的源代码进行建模方面表现出强大的性能,擅长从自然语言描述中完成和生成代码。
在基于人工智能的编程支持下,目前最先进的大型语言模型的编写代码能力已经有了巨大改进。
代码生成 AI 模型的好处是显而易见的,它可以降低开发成本,同时允许编码人员专注于创造性的、重复性较低的任务。也正因如此,越来越多的组织正在探索代码生成人工智能。
Codex 是其中之一。它是 OpenAI 推出的新的深度学习驱动平台,可自动编写能够正常工作的软件代码。该系统以大量公开代码作为语料库进行了训练,是 GitHub Copilot 上的一个功能,可帮助程序员自动改进或更新软件。
DeepMind 出品的 AlphaCode 也是最早与人类程序员竞争的代码生成系统之一。编程竞赛平台 Codeforces 上举办的编程竞赛中,DeepMind 表示,与 5000 多名程序员竞争,AlphaCode 的平均排名在前 54.3% 之内。
目前,OpenAI 和 Alphabet 支持的 DeepMind 等机构已经开发出强大的代码生成 AI,但这些最强大的系统并没有开源。例如,Codex 只允许在收费情况下,通过黑箱 API 调用模型的输出,但不允许访问模型的权重或训练数据。
也就是说,尽管语言模型在编码方面取得了巨大的成功,但由于性能最好的语言模型没有开源,这就限制了资源缺乏的公司在该领域的研究,例如,研究人员无法对模型进行微调在源代码实现之外的任务或领域中使用。而且无法访问模型的内部结构也限制了研究人员研究模型的其他
原文链接:https://blog.csdn.net/shujushizhanpai/article/details/123497610