大型语言模型(英文Large Language Model,简称LLM)是指能够处理和生成自然语言的计算机模型;它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。在过去几年中,LLM的规模每年增加10倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。
LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。它用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等,所以被称为多模态大型语言模型(MLLM)。
MLLM是在LLM的基础上,融合了其他类型的媒体数据,如图像、视频、声音等。它能够同时处理不同媒体类型的信息,并将其整合到一个统一的语义空间中。这使得它在理解多媒体数据的任务中具有很强的优势,如图像描述、视频理解、多模态问答等。从发展人工通用智能的角度来看,MLLM可能比LLM向前迈出一步。
相对于传统的单模态处理方法,MLLM可以更好地理解和描述复杂的现实世界中的信息。它通过将不同媒体类型的信息进行编码和融合,能够更准确地捕捉多媒体数据中的语义和上下文信息。在自然语言处理方面,LLM已经成功地在各种自然语言任务中充当通用接口。
前不久,由美国谷歌公司和德国柏林工业大学的人工智能研究团队推出了史上最大的视觉语言模型(PaLM-E),该模型的参数量高达5620亿(GPT-3的参数量为1750亿)。作为至今最强大脑的LLM,PaLM-E不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练;同时,它还展示出了强大的涌现能力。
最近美国微软公司的研究团队发表了一篇名为《机器人ChatGPT:设计原则和模型能力》论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。这项研究的目标是观察ChatGPT是否可超越文本思考,并对物理世界进行推理来帮助完成机器人任务;在监控机器人性能的同时向LLM提供高级反馈。
目前我国LLM方面的创业公司相对IT大厂来说主要有两个优势,一是技术,另一是数据。由于他们已经推出了相关产品,“数据飞轮”已经转起来了,这些数据的质量相比互联网数据质量要高很多,能够对产品迭代起到很大支撑作用,如上海交通大学的“兆言”。
从2022年底开始,LLM在全球掀起热潮,人工智能技术的发展获得里程碑式的突破,并产生了广泛的影响,尤其是赋能科学研究新范式。正如我国著名学者周海中先生在20世纪90年代初所言:“人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。”
文/吴汶燕(作者单位:同济大学软件学院)