大型语言模型(英文Large Language Model,简称LLM)是指能够处理和生成自然语言的计算机模型;它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。在过去几年中,LLM的规模每年增加10倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。有关专家认为,LLM的到来,人类生活将发生巨大变化。
面向语言理解、语言生成等自然语言处理场景,LLM具备超强语言理解能力以及对话生成、文学创作等能力。创新性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义、语用等方面的新知识,实现模型效果不断进化。而“数字孪生”为LLM提供了一种变革性的解决方案。
LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。它用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以被称为多模态大型语言模型(MLLM)。
MLLM是在LLM的基础上,融合了其他类型的媒体数据,如图像、视频、声音等。它能够同时处理不同媒体类型的信息,并将其整合到一个统一的语义空间中。这使得它在理解多媒体数据的任务中具有很强的优势,如图像描述、视频理解、多模态问答等。
相对于传统的单模态处理方法,MLLM可以更好地理解和描述复杂的现实世界中的信息。它通过将不同媒体类型的信息进行编码和融合,能够更准确地捕捉多媒体数据中的语义和上下文信息。在自然语言处理方面,LLM已经成功地在各种自然语言任务中充当通用接口。
前不久,由美国谷歌公司和德国柏林工业大学的人工智能研究团队推出了史上最大的视觉语言模型(PaLM-E),该模型的参数量高达5620亿(GPT-3的参数量为1750亿)。作为至今最强大脑的LLM,PaLM-E不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练;同时,它还展示出了强大的涌现能力。
美国微软公司的研究团队最近发表了一篇名为《机器人ChatGPT:设计原则和模型能力》论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。这项研究的目标是观察ChatGPT是否可超越文本思考,并对物理世界进行推理来帮助完成机器人任务;在监控机器人性能的同时向LLM提供高级反馈。
目前我国LLM方面的创业公司相对IT大厂来说主要有两个优势,一是技术,另一是数据。由于他们已经推出了相关产品,“数据飞轮”已经转起来了,这些数据的质量相比互联网数据质量要高很多,能够对产品迭代起到很大支撑作用。
最近百度公司的文心大模型全景图迎来新的全面升级,构建起业界规模最大的产业体系,并通过大模型工具与平台的升级和其他基于LLM技术的产品应用,进一步降低了产业化门槛,让更多企业和开发者步入人工智能应用的新阶段。
从2022年底开始,LLM在全球掀起热潮,人工智能技术的发展获得里程碑式的突破,并产生了广泛的影响。正如我国著名学者周海中先生在20世纪90年代初所言:人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。
可以肯定的是,LLM的出现,为人工智能技术进一步发展带来新机遇,也为我们带来更多的便利。毫无疑问,LLM不仅仅代表着人工智能技术的新希望,更代表着人工智能技术一个新的开始。
文/吴汶燕(作者单位:同济大学软件学院)