2024年人工智能大模型工业应用测评：新场景与准确性分析

版权申诉

81 浏览量更新于2024-06-14 收藏 28.71MB PPTX 举报

本报告《人工智能大模型工业应用准确性测评2024年3月版》旨在深入研究和评估人工智能大模型在工业领域的效能。报告由中国工业互联网研究院与香港科技大学、中国经济信息社合作完成，旨在推动落实国家对人工智能发展的政策支持。大模型的应用范围已经扩展到工业知识问答、数据分析、工程建模、文档生成和代码理解等多个场景，成为工业转型升级和创新发展的关键驱动力。测评方法上，报告构建了针对工业场景的新测试数据集，对国内外领先的大模型进行详细测试。测评过程注重实际应用，采用了问答题为主的题型设计，确保评价模型在不同场景下的综合能力。评分标准更为细致，问答题的评分从人工判分转变为利用大模型自身进行评判，并通过整理标准答案和人工校验来保证评分的科学性和一致性。评测内容涉及工业设计、控制代码安全性和复杂性分析，以及代码理解和文档生成等具体任务。例如，代码理解要求模型能生成逻辑清晰、分析性强的文本，文档生成则处理结构化的工业数据，提炼关键信息并形成结论。数据分析部分运用基础数学知识建立模型解决问题，而工程建模则结合工业知识解答专业领域内的难题。报告特别强调了测评结果可能存在局限性，由于大模型技术更新迅速，且测评团队的专业能力和时间限制，可能无法覆盖所有细节。报告欢迎业界的反馈和改进意见，以持续优化测评体系。测评流程包括选取标准答案、生成判分标准、利用大模型API获取答案、最后按照评分标准进行客观赋分。通过对大模型在各应用场景的准确性进行测评，本报告旨在提供一个参考框架，帮助工业界更好地理解大模型的实际表现，从而指导其在实际生产中的部署和优化。随着科技的不断进步，人工智能大模型在工业领域的影响力将持续扩大，未来测评工作的重点也将随之深化和细化。

100

GPT4

文心一言

ChatGLM

星火3.5

通义千问

Claude

百川3

Mistral

Cosmo

从容大模型

360智脑

GPT3.5

GeminiPro

星火3.0

MiniMax

天工大模型

Llama70b

Llama13b(中文微调)

百川13B

准确性

四、测评结果-综合排名

测评成绩

•综合能力上，GPT4处于领先地位，国内大模型文心一言、ChatGLM紧随其后；

•对于国内大模型，多个模型综合能力超过GPT3.5，包括文心一言、ChatGLM、星火3.5、通义千问等；

•对于国外大模型，GPT4领先优势明显，其余模型差距较大。

大模型准确性排名Top20

[1]

[1] 模型版本号参见附录1。

国际平均55

国内平均54

剩余21页未读，继续阅读

matlab@com

粉丝: 276
资源: 5304

2024年人工智能大模型工业应用测评：新场景与准确性分析

人工智能在工业领域的应用.docx

人工智能大模型介绍.pptx

制造业是AI大模型应用的主战场.docx

2024人工智能大模型工业应用准确性测评（21页）.pptx

人工智能大模型工业应用准确性测评（2024-3）PPT(22页).pptx

XX垂直物联网应用平台解决方案qy.pptx

智慧矿山数字化工业大数据平台建设方案qy.pptx

工业互联网解决方案qy.pptx

智慧工业园区解决方案qy.pptx

字节QUIC千万QPS应用实践qy.pptx

最新资源