摘要
近年来,人工智能在农业领域的应用取得了显著进展,但仍面临模型数据收集标记困难、模型泛化能力弱等挑战。大模型技术作为人工智能领域新的热点技术,已在多个行业的垂直领域中展现出了良好性能,尤其在复杂关联表示、模型泛化、多模态信息处理等方面较传统机器学习方法有着较大优势。本文首先阐述了大模型的基本概念和核心技术方法,展示了在参数规模扩大与自监督训练下,模型通用能力与下游适应能力的显著提升。随后,分析了大模型在农业领域应用的主要场景,按照语言大模型、视觉大模型和多模态大模型三大类,在阐述模型发展的同时重点介绍在农业领域的应用现状,展示了大模型在农业上取得的研究进展。最后,对农业大模型数据集少而分散、模型部署难度大、农业应用场景复杂等困难提出见解,展望了农业大模型未来的发展重点方向。预计大模型将在未来提供全面综合的农业决策系统,并为公众提供专业优质的农业服务。
引言
大模型,或称基础模型,指经过在大规模数据上训练,具有庞大参数量的深度神经网络模型。这些模型通常基于 Transformer 架构,通过自监督的方法从大量数据中进行学习,不仅拥有卓越的通用能力,也可以适应不同的下游任务。通过扩展,模型在多个领域展示出强大能力的同时,甚至可以涌现出新的能力。例如基于 GPT 系列技术的 ChatGPT 对话机器人,可以经过一定的提示词,在如机器翻译、情感分析、文本摘要等大量的自然语言处理任务中表现出色,亦可以推理小模型无法处理的复杂逻辑。
现代农业的迅猛发展与人工智能技术进步密切相关,特别是深度学习的突破性进展对农业产生了深远影响。深度学习强大的特征学习与数据处理等能力,使其在杂草控制、作物病虫害检测、畜牧业管理以及农业遥感等领域均有广泛应用。然而,这些方法大多使用监督学习,依赖于特定的高质量人工标注数据。收集和标注这类数据集不仅耗时、耗资巨大,且模型迁移到其他任务的能力有限,限制了数据规模与模型的发展。因此,寻找能够跨应用领域通用的模型和技术,减少对大规模数据标记的新方法,扩展深度学习框架的通用性,是推动农业等领域进步的重要挑战。农业大模型是为克服上述困难的一次重大尝试,为解决农业领域数据较少且分散的现状提供了方案,同时其广泛的任务迁移能力也得到了多个农业子领域的关注。
1.大模型关键技术与特性
Transformer模型的产生与核心原理
Transformer架构的设计核心是一种简单高效的自注意力机制,通过计算序列内元素间的相互关注度分数,为各元素赋予差异化的权重。这一设计使得模型能够在处理序列数据时,动态地集中处理序列中的关键信息,并能够覆盖序列中任意位置的数据元素,有效捕捉长程依赖关系。这种机制使得模型能够方便地扩展,不会因此在模型推理时丢失细节。此外,Transformer模型的架构允许并行化计算,模型在参数规模较大时训练效率有了显著提升。这些特性促使其在大模型领域具有广泛应用。
大模型的扩展定理
Transformer 架构允许模型进行大规模的堆叠,而对模型规模、数据规模与计算量的扩展,可以大幅提高模型能力。尤其在语言大模型领域,开展了对扩展的定量研究,发展出 KM 法则与 Chinchilla 法则。KM 法则是通过拟合神经语言模型的性能在不同模型规模、数据集规模,以及训练计算量三种变量的表现,提出了一种性能随这三种要素扩展而提升的定量描述;Chinchilla 法则提出了另一种形式来指导语言大模型进行最优计算量的训练,认为模型大小与数据量应以同比增加来在一定预算下取得最优模型。
大规模自监督学习
大模型的能力依赖于大规模的训练。早期的深度学习模型基于监督训练,依赖于对数据的人工标注。这种方式耗时耗力,限制了模型的训练规模。相对地,自监督学习的核心思想是利用数据本身自动化地产生对应的监督信号,使模型能够在未经人工标注的数据上,学习到有用的特征,进行自我监督。通过减少或避免对人工的依赖,使得在更广泛、更大规模的数据集上进行训练成为可能。
在大模型领域,自监督学习主要采用生成式学习与对比学习两种策略。生成式学习,也称预测学习,旨在通过模型生成与训练数据相似的数据,深入挖掘数据的内在结构及生成过程的潜在因素。对比学习则广泛地应用到计算机视觉领域中,如 SimCLR 架构,将同一批图片采用不同方式增强后进行编码,最大化来自相同图片的编码的相似性,以此学习对图片的特征表示。
同时,进行大规模自监督学习的可扩展性训练技术也至关重要,可以包括如使用 3D 并行技术(数据并行、流水线并行、张量并行等),将计算分散到多个 GPU 上进行训练,或使用零冗余优化器技术,解决数据在多 GPU 部署后的冗余问题,以及采用混合精度训练,减少计算量与数据传输开销。这些技术结合计算机硬件的持续进步,为大模型的规模扩展和训练效率提供了坚实的算力支持。
大模型通用能力与适应微调
经过预训练,大模型具有解决广泛任务的通用能力。通过一定的提示,大模型能够执行不同的具体任务。如 ChatGPT 可基于语言等提示,执行如文本翻译、开放领域问答、文本摘要、文本生成等多种自然语言处理上的具体任务;Meta 公司开发的 SAM 允许使用文本提示与可视化的分割范围提示,对照片中的具体物体进行实例分割。
大模型可以通过微调适配到特定的目标上。如在语言大模型上可以进行指令微调与对齐微调两种微调方法。前者通过构建人工参与的格式化的指令,包含任务描述、输入输出以及可选的少量示例等,监督大模型对特定的工作进行调节,提升其完成具体目标的能力;后者则着重于将人类的价值取向与偏好等对齐于语言大模型,防止其生成有害的、虚假的、带有偏见的等不符合人类期望的内容,一般采用基于人类反馈的强化学习方法,通过收集的人类反馈进行训练奖励,有监督地调节模型。
对模型进行全参数微调需要大量计算资源。而对模型添加少量额外结构,就能使模型在仅调节这些结构后快速适应下游任务。这种参数高效微调的方法包括适配器微调、前缀微调、低秩适应微调以及提示微调等。这些方法的出现显著降低了微调的计算量,促进了大模型在多个领域的推广。
涌现能力
语言大模型与一般预训练语言模型的主要区别之一是涌现出在较小模型上难以出现的能力,即涌现能力。将模型的规模提升到一定程度,其能够展现出解决复杂的问题的新能力。其中有三种典型能力:上下文学习、指令遵循,以及逐步推理。上下文学习是指模型能够按照一定的自然语言指令以及任务演示,对测试样例进行补全来生成答案,不需要对模型参数进行更新。指令遵循是指模型在混合多任务数据集上进行微调后,在格式相同但未曾见过的任务中具有良好表现,即便没有显式的示例依然可以遵循新的命令。逐步推理则强调语言大模型可以解决涉及多个推理步骤的复杂任务,通过思维链等方式生成中间的推理步骤,最后生成最终的答案。
2.大模型分类及在农业应用分析
大模型农业应用主要场景
大模型在农业领域展现出广泛而强大的应用潜力,涉及农业的多个子领域。在种植业领域,大模型可以对植株及根茎果实等器官进行识别分析,对病虫害、杂草等进行识别与定位等;在畜牧业领域,大模型可以对家畜进行个体识别与追踪,以及动物行为分析、动物产品分析等。对于农业上的通用领域,大模型可以对农业遥感图像进行划分,分析土地用途、作物种类等;也可以用于农业文本的分类与信息提取等。对于综合化的农业应用,大模型可以用作农业智能问答系统,对多模态信息进行全面分析;而在未来,大模型可以接入自动化农机中指导其操作,亦可以作为决策核心对多种农业任务进行无人化管理。大模型与农业深度融合是未来的发展趋势,甚至会对农业产生变革性的影响。
农业大模型分类
语言大模型
语言建模是人工智能在语言能力上的重要体现,其旨在通过对词序列进行概率建模,预测未来或内部缺失的文本概率。近年来,语言大模型通过大规模的语言建模,将人工智能在自然语言处理上的能力推上了一个新的高度,以 GPT 系列为代表的语言大模型得以产生。
目前,语言大模型已经在农业领域初步应用,其中包括构建专用农业模型、研究已有模型的农业能力,以及综合使用模型与外部系统等研究方向。
建立农业专用语言模型:在大规模的语言模型出现前,一些较小规模的语言模型已经在农业领域得以应用。目前,语言大模型的文本分析与生成能力在多种农业任务中得以应用,其可以对农业文本进行信息抽取与分类,为农业问题提出解答,提供全面的智慧农业服务。农业领域专用语言大模型的训练还在进行当中。
探究与增强已有语言大模型的农业能力:不经过额外的大规模预训练,探究已有语言大模型在农业领域的应用能力也取得了一定成果。语言大模型的农业问答能力也得到了研究。语言大模型可以生成高质量的农业信息,但对于精确到一定地区的问题,可能依然生成一般性回答,与地区的实际情况有所偏差。
语言大模型与外部系统配合:语言大模型强大的文本理解与生成能力,使其能够有效地与其他小型人工智能模型等外部系统结合。通过融合相关外部文本、多轮自行判断推理以及模型高效微调,语言大模型的农业能力能够显著增强。未来,使用通用语言大模型并通过外部信息以及少量训练与微调来增强其农业能力的方式会得以进一步推广。
视觉大模型
计算机视觉领域较早的主要研究范式是基于有监督的深度神经网络训练。将语言模型的相关技术应用于计算机视觉领域,并使用自监督等学习方法,促进了视觉大模型的产生。
视觉大模型在农业领域的应用主要体现在以下几个方面:
Florence 模型:该模型广泛的视觉能力使其成为视觉大模型领域的重要突破。其核心创新之一在于能力的泛化,能够处理从粗粒度到细粒度的信息,从静态图像到动态视频的内容等。Florence 不仅在常规的视觉任务中展现了高度的适应性和性能,在处理更复杂、多样化的数据类型和任务时也展示了前所未有的识别与分析能力。
SAM 模型:该模型将图像分割引入视觉大模型领域,是计算机视觉大模型的重大突破。其能够在多种不同场景中分割出其中不同的物体,表明其对“物体”的理解已上升到高度抽象的层面。SAM 在农业领域的应用包括分割土豆植株叶片、作物与杂草图像的精确分割、病虫害图像分割等。
农业遥感领域:侧重于通过遥感图像提取出农用土地的多种信息,提升农业数据的准确性和实用性,指导地方农业向精细化、个性化的方向发展。
视觉大模型的“分割一切”能力使其在发布的短期内即在农业的多个领域得到充分应用。尽管其在部分特定任务中不及传统人工监督学习模型,但仅通过少量的监督微调,其在农业领域的能力就能够得到显著提升。在未来,随着视觉大模型技术的进步,利用特定提示、少量人工监督训练等方法,这些模型将更加高效地替代传统模型,在农业领域发挥更大作用。
多模态大模型
与单一处理文本或图像的模型不同,多模态大模型可以融合语言、图像等多种信息,打破多种信息载体的壁垒。这种模型一般涉及多种信息载体的互相转换与理解,提升机器对世界的理解能力,是通用人工智能出现的必要门槛。
多模态模型在农业领域的主要优势之一是能够打破多种农业图像问题与农业知识文本之间的壁垒,通过统一的模型为多种农业问题提供全面的解决方案。将语言大模型与视觉大模型等的能力结合,进行多模态方向的深入开发,进一步提升模型能力,为实现综合化的智慧农业服务提供更为坚实的技术支撑,为农业领域带来更高效、智能的解决方案。
3.农业大模型发展重点方向
构建综合且集中的农业数据集
农田环境多变、场景复杂,收集大规模、多样化的数据集存在一定困难。虽然大模型的迁移能力减少了模型对农业数据的需要,但其迁移效果受数据质量的影响较大,确保数据的准确性和一致性至关重要。目前农业领域的数据集呈现相对较为局限和分散的现状,依然限制了大模型在农业上的广泛应用。因此,建立一个高质量、全面、广泛且开放共享的数据集显得尤为重要。
减轻模型的训练与部署难度
农业领域涉及的作物种类繁多,不同地区的气候、土壤条件差异显著,通用的大模型难以适应所有场景,需要构建具有地域特色的专用模型或专用模块。而大模型的预训练、微调和部署工作均需要大量的计算能力与存储空间,高度依赖于高性能 GPU 服务器,且依然需要较长的训练时间。这种需求限制了目前大模型在农业等多个领域的进一步发展。目前,扩展性训练技术可以减少模型的 GPU 显存需求并提高模型吞吐量,同时 QLoRA 与 OPTQ 等技术允许模型降低参数精度来缩减模型体积,已经得到了广泛应用。此外,大模型自身的优化和发展亦有助于在较小的参数规模上实现或超越更大模型的性能,而硬件的进步也将增强模型在更广泛领域的应用潜力。未来,模型的进一步轻量化和便携化将促进其在农业等领域的普及。
构建基于大模型的农业决策系统
基于复杂文本、图像等信息的分析能力,大模型可以作为农业决策的核心,接入不同来源的各种模块。这些模块可以包括物联网实时监控设备、其他人工智能模型、公开的即时信息(如天气)等。通过一定的提示,大模型可以整合多种输入来源,并推理出基于实时信息的最优策略。用户可以通过语言交互来获取简单易懂的个性化反馈与建议,甚至农业机器人可以在大模型的指导下进行自动化的管理与采收等工作。通过提高模型的泛化性,确保决策模型能够适应不同的农业环境和条件。但是,由于农业大模型更多面向农民等群体,因此农业决策需要更强的模型可解释性,以便农民能够理解和信任模型的输出。此外,还可通过融合多种外部能力与自身知识储备制定出全面可靠的农业方案,来进一步提升农业管理的效率和准确性,甚至为农业领域带来变革。
推动大模型在农业领域的广泛应用
当前,大模型在农业领域的应用仍然主要局限于科研阶段的小规模测试,其在公共服务方面的应用明显不足。发展和推广农业大模型正面临着涉及技术、政策、资金和农民接受能力等多个方面。此外,如何将大模型技术转化为可落地应用的具体产品和服务,以及如何通过这些产品和服务产生商业价值,是农业大模型发展另一个挑战。这些均需要政府、企业、研究机构和农民等各方共同努力,制定合适的政策和措施,推动农业大模型的可持续发展和推广。
2013-2024 极贸易 www.jimaoyi.com 版权所有 | 御融(北京)科技有限公司 All Rights Reserved
增值电信业务经营许可证:京B2-20200664 | 京ICP备14004911号-8