知识图谱与大型语言模型融合，实现准确、可解释的制造流程规划-EW帮帮网

大家读完觉得有帮助记得及时关注和点赞！！！

抽象

计算机数控（CNC）加工中的精密工艺规划要求对刀具选择、进给速度对和多轴布线做出快速、上下文感知的决策，这给工程师从设计规格到最终零件检查带来了巨大的认知和程序负担。传统的基于规则的计算机辅助流程规划和知识工程外壳将领域专有技术冻结在静态表中，在处理看不见的拓扑、新颖的材料状态、不断变化的成本-质量-可持续性权重或车间限制（如工具不可用和能源上限）时，这些表会受到限制。大型语言模型（LLM）承诺对 G 代码合成到纺锤体加载查询等任务进行灵活的指令驱动推理，但它们经常产生幻觉数值并且不提供出处。我们展示了增强检索知识网络增强搜索与合成（ARKNESS），这是一个端到端的框架，它将零镜头知识图谱（KG）构建与检索增强生成融合在一起，为CNC流程规划提供可验证的、数值精确的答案。ARKNESS （1）自动将异构加工文档、手册、G 代码注释和供应商数据表提取成增强的三重多关系图，无需手动标记，以及（2）将任何本地 LLM 与检索器耦合，该检索器注入回答查询所需的最小、证据链接的子图。以 155 个行业策划的问题为基准，涵盖刀具选型、进给速度优化和公差诊断，由 ARKNESS 增强的轻量级 3B 参数 Llama-3 与 GPT-4o 精度相匹配，同时在多项选择精度方面实现了 +25 个百分点（pp）的提高，在 F1 中实现了 +22.4 pp，在开放式响应上实现了 8.1× 的 ROUGE-L。此外，通过将推理建立在精确的三元组基础上，ARKNESS 使较小的模型能够匹配或超过更大的云模型的准确性，将数字幻觉减少 22 pp，并完全在本地运行，以便在车间进行保护隐私的实时推理。

关键字大型语言模型⋅检索增强一代⋅知识图谱 /⋅制造工艺规划

1介绍

现代生产流程，如精密加工，需要精度边际，并且几乎不能容忍任何数字误差，从初始设计规格到最终零件评估，都会给工程师带来巨大的精神和作负担[1,2,3].在航空航天和能源等高风险行业，尺寸公差通常会收紧到 ± 5μm 的 m 值，而表面完整性约束、白层厚度和残余应力必须保持在狭窄定义的阈值内[4].为了满足这些标准，机械师必须同时优化各种相互交织的工艺参数，例如刀具类型、进给率、主轴速度和切削深度，并仔细权衡周期时间与表面光洁度、刀具磨损和几何保真度[5,6,7].因此，不正确的十进制钻头尺寸或过时的切削速度图表会直接转化为报废、返工或潜在缺陷，这些缺陷只有在灾难性故障后才会显现出来[8].据估计，这种计划外停机侵蚀了财富全球 500 强制造商 11% 的年收入，每年损失约 1.5 万亿美元[9].

计算机辅助流程规划（CAPP）引擎和计算机辅助制造（CAM）模块捆绑在主流计算机辅助设计（CAD）套件（例如 Siemens NX、CATIA 和 SolidWorks）中，形成自动化管道，可提取符合 STEP 的产品模型（AP203/242）并发出可执行的数控（NC）结果[10].在将进给、速度和换刀周期编译成 ISO6983 或 STEP-NC 之前，专用的 CAPP 系统执行高级分析循环、几何询问、特征识别、优先级、约束分辨率、毛坯/夹具/机器分配和作图合成。然后，嵌入式 CAM 模块会细化中间层：从供应商库中选择刀具，应用参数预设，使用碰撞检查和材料去除估计生成和模拟刀具路径，以及为常见的棱柱特征调用基于特征的加工或基于知识的工程规则。总的来说，这些规则驱动的框架可以将规划提前期压缩 2-10×，但它们在结构上都存在脆弱性。当面对看不见的拓扑结构（例如，自相交的自由形状型腔）、新颖的材料状态、不断变化的成本-质量-可持续性权重或车间限制（如工具不可用和能源上限）时，硬编码的启发式方法会步履蹒跚。此外，这两个层级都不会原生摄取加工单元生成的遥测数据（例如，切削力、振动和热图像），迫使人类专家进行干预、核对文档和手动重新调整参数，随着几何复杂性和吞吐量要求的升级，这是一个越来越难以维持的瓶颈。

图 1：对比知识图谱（顶部）和大型语言模型（底部）处理相同 tap-drill 大小调整查询的插图。在知识图谱部分中，技术实体（即 Twist Drill、Clearance Height、Tap Drill、Titanium Nitride、5-axis CNC Milling Machine 和 Impeller Blade）通过显式关系连接，但通常可能缺少上下文链接和未被发现的事实。LLM 部分显示了模型生成的答案（“8 毫米钻头”），并进行了注释以揭示专业加工中的不精确风险、隐含的无法追踪的知识和领域的低效率。

大型语言模型（LLM）已成为多功能的指令跟踪代理，能够综合领域知识、在不确定性下进行推理并生成可执行的结果[11].最近的研究表明，它们能够合成 3 轴钻孔路径，回答有关主轴负载和进给率的上下文查询，并在描述性任务中以人类水平的精度对控制器警报进行故障排除[12].Šket 等人在独立的 G 代码生成、自我解释和错误简化方面对 GPT-3.5 和 GPT-4 进行了基准测试;GPT-4 提供了更正确的刀具路径，但仍然局限于简单的钻孔作，并且需要大量的及时转向[12].为了将功能扩展到代码合成之外，引入了 ChatCNC，将多个 LLM 代理与实时机器遥测相结合，以便作员可以问，例如，“09：32 的主轴负载是多少？该系统在复杂的生产跟踪查询中达到了 93.3% 的准确率[13].然而，这两项研究都暴露了两个系统性瓶颈：首先，依赖于精确的用户提示或结构狭窄的 SQL 检索，其次，当本地数据库缺少所需的上下文时，性能会很脆弱。

特定于域的微调提供了一种缓解策略。Rosati 等人使用工业用户手册将 Llama-3 的 ROUGE-1 评分从 0.164 提高到 0.314[14].CNCGPT 微调了 GPT-3.5 Turbo 的机器指令和故障排除日志，将事实正确性从 ROUGE-L 0.296 提升到 0.692[15].然而，密集的微调带来了新的权衡：（1）随着查询响应库存增长到数千个，计算成本不断上升;（2）快速过时，需要频繁的再培训;（3）专有部分文件或生产指标遍历外部云 API 时的数据主权问题。因此，需要一种补充机制，一种为 LLM 提供丰富、可验证的上下文的机制，而无需长期重新训练模型或暴露敏感数据。

另一方面，知识图谱（KG）提供了一个结构化的、语义丰富的基础，用于将加工知识捕获为类型化实体（特征、工具、作、机器）和关系（例如，requiresTool、precedes、causes）[16,17,18].对于 CAPP，Wang 等人生成了一个特征加工 KG，并提出了一种余弦相似性检索，该检索选择了与专家模板相似度为 0.8450 的行业有效的孔加工方案[19].Guo 等人根据特征拓扑和机器能力组织了历史工艺路线，将零件布线时间从 50-80 分钟缩短到大约 15 分钟[20].除了规划之外，KG 还通过对因果链进行推理，即使在缺少传感器数据的情况下，也能实现 >90% 的旋转机械根本原因诊断准确率[21].尽管取得了这些进步，但 KG 的部署仍然依赖于费力的手动管理：（1）领域专家必须注释源文本，验证三元组，并定期注入新的加工知识;（2）简单的主谓词三元组也难以编码上下文，例如容差叠加、夹具约束或细微差别组件的流程链基本原理。例如，用于创建薄壁几何体的刀具之间的给定连接可能会忽略与该特定零件所需的特征尺寸和特定公差相对应的最佳刀具几何体之间的依赖关系。

图 1 通过对比（1）提供可追溯但缺乏上下文的推理的独立知识图谱，当缺少关键关系（如特定于材料的间隙或超大规则）时不会返回任何答案，以及（2）一个独立的 LLM，它自信地幻觉了不正确的 8 mm 推荐，揭示了对 KG 和 LLM 混合架构的需求，该架构既是出处- 感知和上下文自适应。本研究介绍了增强检索知识网络增强搜索和合成（ARKNESS），这是一个混合框架，它将 LLM 与语义丰富的特定领域 KG 相结合，提供基于验证信息的答案，确保加工工艺规划查询的建议既可靠又与上下文相关。此外，通过将 LLM 提示置于这些丰富的子图中，ARKNESS 可以在本地部署紧凑的参数模型，其准确性与更大的云 LLM 相当或超过，从而大幅减少计算和部署开销。该白皮书的主要优点是：

1.

与模型无关的 KG 增强的 CAPP 助手。我们提出了一个检索增强的生成管道，它将任何大型语言模型与多关系加工知识图谱耦合在一起。图形感知提示编译器将来源链接的三元组注入上下文窗口，从而产生数值精确且可解释的流程规划答案。
2.

从技术语料库中进行自我监督的 KG 蒸馏。基于 GPT 的零样本实体关系提取器将异构加工文档（例如 PDF 手册、规格表和 NC 代码注释）转换为上下文化的三元组，从而消除了以前限制面向 CAPP 的 KG 的手动管理瓶颈。
3.

轻量级的本地幻觉抑制。在 155 个查询的基准测试中，ARKNESS 与较小的 LLM 模型配对，可以匹配或超过更大的云 LLM，同时减少幻觉，展示了实时车间部署的隐私保护路径。

论文的其余部分如下：第 2 部分提供了制造规划上下文中的相关知识图谱和大语言建模研究，第 3 部分提供了 ARKNESS 的实现，用于自动创建图以进行检索和回答，第 4 部分描述了实验设置，第 5 部分介绍了实验结果，第 6 部分总结了论文。

2研究背景

2.1机加工中的大型语言模型

LLM 正在迅速从研究奇观转变为 AI 驱动生产的核心推动因素，这要归功于它们能够解析自由格式的指令、融合异构上下文并返回可作的、特定于领域的指导。Li 等人最近的一项调查对他们早期渗透到制造堆栈中进行了分类，包括生成式 CAD 建模、生物过程配方设计、机器人路径规划和基于视觉的质量控制[22].在减材制造中，最直接的应用是自然语言到 G 代码的翻译。Šket 等人评估了用于 3 轴 G 代码生成的商业 ChatGPT 模型，测试了 GPT-3.5 和 GPT-4，分为三个阶段，包括独立的 G 代码生成、解释生成的 G 代码以及检测和简化错误[12].他们的结果表明，使用 GPT-4 实现 LLM 以生成 G 代码有望产生更正确的刀具路径，但严重限于钻孔等简单作。此外，他们的方法严重依赖用户输入来对齐 LLM 以进行生成，如果部署在制造环境中，可能会导致停机时间增加。Jeon 等人通过开发 ChatCNC 扩展了 G 代码生成，该 ChatCNC 将各种 LLM 代理与实时 CNC 加工数据集成在一起[13].这使用户可以收到有关其 3 轴 CNC 机床状态的上下文感知答案，例如特定实例或时间的主轴负载;他们的方法在需要复杂数据推理的查询中实现了 93.3% 的准确率，例如生产跟踪，展示了分析制造管道中记录的数据的应用程序。尽管准确性很高，但作者承认，当遇到缺少上下文或无法从数据库中检索信息时，该模型会导致失败。这表明需要超越传统检索方法（例如定义的 SQL 数据库结构）进行更深入的搜索，以补充现有的知识差距。

除了提示和传统的检索技术之外，研究人员还引入了特定于领域的微调，以更好地使 LLM 的响应与特定领域的知识保持一致。Rosati 等人针对工业应用对 Llama 3 进行了微调，在使用 360 度相机的用户手册进行训练时，将 ROUGE-1 F1 的平均分数从 0.164 提高到 0.314[14].Wang 等人对 GPT-3.5 进行微调以用于飞机维护，其性能优于通用 GPT-3.5 及其升级后的 GPT-4.0[23].在加工的特定领域，Soundararajan 等人开发了 CNCGPT，旨在通过根据机器特定数据、作说明和故障排除断言微调 GPT-3.5 Turbo 来提供现场 CNC作员的协助[15].结果显示，在微调前后使用 ROGUE-L 分数时，事实正确性分别从 0.296 提高到 0.692。尽管他们的方法有效，但仍存在一些挑战，可能会阻止在工厂车间进一步部署。其中一个问题是所需的资源量和训练时间，因为作者只训练了大约 30 个查询响应示例。在实际场景中，可能有成百上千个场景和响应，这可能会严重限制训练期间的可扩展性。此外，随着新场景的不断出现，系统必须经常重新训练以保持最新状态，这可能会进一步增加计算资源的压力并使维护复杂化。此外，还存在生产过程和其中包含的信息的安全性挑战。作者使用了在基于云的外部平台上运行的商业 LLM，其中数据流和存储可能会引起对数据隐私和知识产权保护的担忧。这种对第三方系统的依赖增加了未经授权访问或数据泄露的风险，因此必须实施探索本地解决方案的解决方案，以确保专有制造数据严格保密。

2.2机械加工中的知识图谱

以结构化方式重用和实施加工知识的能力不仅增强了规划和决策的一致性，还确保了现有的知识差距得到缓解。Xiao 等人回顾了涉及知识图谱的计算机辅助流程规划如何从降低劳动力成本、缩短生产周期和更智能地使用现有信息中受益[16].作者分析了从过程知识表示到过程知识图谱构建和验证的实现知识图谱的关键步骤，展示了这些方法如何通过减少过多的人工干预、提高灵活性和泛化性来克服传统的 CAPP。Wang 等人展示了这种工艺知识的实现，他们为基于特征的加工构建了一个工艺知识图谱，以自动选择加工方案[19].通过使用改进的余弦相似性公式进行加工方案选择，他们获得了 0.8450 的相似性分数，与工业中针对由 6 个孔组成的典型壳体零件实施的现有成熟方案非常接近。通过使用他们的方法，Wang 等人认为推荐的加工步骤将减少刀具负载并提高零件质量和加工安全性。在一项类似的研究中，Guo 等人通过使用零件特征拓扑和机器功能组织历史工艺计划，创建了一个用于工艺路线重用的知识图谱[20].在引入新部件时，作者通过与现有流程路由的相似性检查来确定与其特征拓扑最一致的流程路由。他们对轴类零件的案例研究使整个加工过程路线从通常的 50 分钟缩短到大约 80 分钟，从而显著提高了效率。

加工知识图谱的另一个主要应用涉及数控设备的故障诊断和维护。制造系统从传感器、日志和维护报告等来源生成异构数据，如果孤立或孤岛，如果出现问题，可能难以诊断。知识图谱通过在因果关系和部分整体关系网络中连接物理组件、信号和故障模式来提供统一的表示。Qiu 等人通过构建一个集成了传感器数据和领域知识的多层知识图谱解决了这个“数据岛”问题，能够在立式铣削工具（型号 XHK-5140）上自动识别 X 轴滚珠丝杠驱动系统在 201 天内的健康变化，而基于相似性的图推理量化了与健康基线的偏差[24].基于这一想法，Cai 等人为旋转机械引入了一种多级故障诊断 KG，将子系统状态的分层知识与贝叶斯推理相结合，提供跨图的概率推理以查明根本原因[21].值得注意的是，即使缺少传感器输出，他们的方法也通过利用相关症状之间的关系实现了 91.1% 的诊断准确率，并且优于传统的基于规则的故障诊断。

尽管在实施知识图谱方面取得了长足的进步，但在机械加工和工业中大规模部署知识图谱仍然存在挑战。上述这些方法仍然在很大程度上依赖于大量的手动管理。提取、验证和持续更新领域知识的过程需要大量的人类知识和干预，因此难以快速扩展或快速适应新信息。这种劳动密集型方法不仅增加了不一致或遗漏的风险，而且还阻碍了动态制造环境中的实时响应能力。此外，传统上对简单基于三元组的表示的依赖限制了捕捉加工过程中细微决策所需的全部上下文丰富性的能力。这种表示往往无法编码构成复杂制造作基础的详细情况、基本原理和错综复杂的关系。因此，它们可能无法完全表达各种加工作如何相互关联或为什么选择特定的工艺选择。因此，这将导致对基本机制和工艺依赖关系的肤浅理解。这些限制凸显了在知识表示方面需要更灵活、上下文更丰富的方法，以支持现代加工应用不断变化的需求。

3研究方法

本节详细介绍了 ARKNESS 框架的两个主要组件，即 1）知识图谱构建和 2）图横向、检索和 LLM 响应。图 2 提供了这两个组件的一般概述。

请参阅标题

图 2：将知识图谱与大型语言模型相结合的框架概述，说明从图创建和存储到语义搜索、匹配和检索，最后到语言模型响应的过程。

3.1知识图谱

知识图谱可以被视为一组元组𝒢={(v,r,w)}哪里v和w是一组顶点中的顶点（实体）𝒱和r是一组关系中的边（关系）ℛ.元组集通常称为三元组，表示为（head， relation， tail）表示v,r和w分别。

3.2自动图形构造

ARKNESS 的知识图谱构建主要使用与用户所选域相关的文档中的文本数据来完成。由于文档类型和文件格式（例如，.docx、.pdf .pptx）的异构性质，首先进行预处理以从这些不同的来源中提取文本信息。这是通过 Docling 实现的[25]Python 包，它有效地解析文档并提取原始文本，然后将内容导出为 Markdown 文件以供进一步处理。

文档拆分是通过解析每个单独的段落来完成的。给定一个文档p单独的段落，每个段落都交给 LLM 以提取实体和关系形成T三元组。给出了具体说明来指导 LLM 输出结构化信息，如下所示：

-目标-

按以下格式直接从输入文本中提取结构化三元组：

ENTITY_1， RELATIONSHIP_TYPE， ENTITY_2， “RELATIONSHIP_DESCRIPTION"

-步骤-

1. 仔细阅读输入文本以识别：

- 关键实体：文本的核心概念、系统、技术或过程。

- 关系：清除文本中描述的链接两个实体的作或连接。

- Descriptions（描述）：文本中解释关系的逐字或释义描述。

2. 对于每个关系，构造一个三元组：

- ENTITY_1：启动关系的主要概念或实体。

- RELATIONSHIP_TYPE：文本中描述的作或连接类型。

- ENTITY_2：受ENTITY_1影响的目标概念或实体。

- RELATIONSHIP_DESCRIPTION：直接源自输入文本的关系的简要描述。

3. 每个三元组必须清晰，格式如下：

ENTITY_1， RELATIONSHIP_TYPE， ENTITY_2， “RELATIONSHIP_DESCRIPTION"

4. 尽可能逐字使用原始文本进行描述，确保准确性。避免添加外部解释或解释。

对于选择的每个文档，都会重复此过程，以创建GD子图。在三元组信息中包含“关系描述”的目的是保留创建三元组所依据的相关上下文信息。这消除了传统知识图谱中的歧义和经常缺失的信息。然后将所有子图存储到相应的文本文件中，然后将这些文本文件组合在一起以进行进一步处理。

然后使用 PostgreSQL 创建一个分层数据库，以有效地存储和检索实体、关系及其关联的上下文。具体来说，Python 和 Psycopg 库用于与数据库交互，在初始化期间创建了三个主表：（1）主题表：使用序列主键存储唯一的实体名称，（2）关系表：将每个主题与其相应的关系相关联，其中每个条目都引用主题的唯一标识符，确保关系正确链接，（3） objects 表：存储结束三元组实体以及相应的上下文信息。此结构也可以表示如下。让S是主题（实体）的集合。对于每个科目s∈S让R⁢(s)是与关联的关系集s.对于每个关系r∈R⁢(s)让O⁢(r)是链接到的结束对象集r，其中每个对象都表示为一个元组(v,c)跟v表示连接的实体，以及c表示相应的上下文。因此，整个数据库由集合定义：

单个三元式记账表示为：

3.3图检索和横向

图 3：知识图谱构建和用户查询图横向概述。左侧描述了从文档选择、预处理、实体关系提取、三元组生成和上下文匹配以及数据库存储的自动化图形构建过程。右侧描述了给定用户查询的知识图谱检索，方法是嵌入查询以获取向量表示，对图中的三元组执行相似性检查，并对最相关的三元组进行排名，以提供给大型语言模型以生成答案。

图 3 深入说明了如何将三元组与查询进行比较，并检索并检索以提供给 LLM。创建并存储数据库后，其中包含的信息将被合并，以提供额外的上下文和信息来锚定后续问题。这是通过从知识图谱中检索相关的 Triplelet 和上下文来实现的。检索过程首先将给定的自然语言查询或问题编码为向量q∈ℛd.这是使用选定的语义嵌入模型实现的f:发短信→ℛd.同样，每个三元组t我从 Database 编码到 embedding 中e我使用相同的语义嵌入模型，其中f:t我→ℛd.然后，根据以下公式使用余弦相似度计算查询和每个三元组之间的相似度：

此相似性分数可以评估给定的查询与知识图谱中每个三元组的语义相似程度，从而确定其相关性。

鉴于知识图谱的潜在规模可能达到数十万或更多连接，因此候选人库C是通过选择对应于所选 top- 的索引来构造的K相似性分数最高的三元组s我=SIM 卡⁢(q,e我).仅选择最高的相似度允许选择语义上最相关的三元组进行进一步处理。因此，候选池定义为：

如前所述，由于知识图谱可以包含数十万甚至数百万个连接，因此仅依赖于顶部的 -K三元组可能会忽略与其相关的其他相关三元组。为了探索这些三元组的扩展邻域，我们通过执行光束搜索展开来遍历图。让E⁢(我)表示由我（即，与 triple 共享一个节点的我).我们在选定的最大扩展深度上递归地进行光束搜索dm⁢一个⁢x.在这里，更高的深度允许人们通过图表进行更深入的探索，从而可以检索到更多信息。对于初始深度d=0，我们首先将初始候选C0=C.对于每个后续深度d≥1我们使用以下方法查找其他候选人：

其中 Top-b⁢(⋅)选择所选的b候选项，也称为波束宽度，相对于嵌入式查询具有更高的相似性分数q.此处，光束宽度是一个选定的参数，其中较高的b允许模型探索更广泛的候选项集，以便从每个步骤中扩展。这可能会捕获初始 top- 中缺失的语义相关三元组K.相反，较低的b将搜索限制为更有前途的候选者，从而减少计算开销，但代价是可能会丢失位于顶部之外的相关连接b候选人。为了避免重新处理三元组，一组访问的三元组Ev的维护方式使得递归扩展仅考虑定义为以下的新节点：

在递归扩展所选深度和光束大小后，检索到的最终三元组集由下式定义：

作为选择最后一组候选三元组后的最后一步，相应的上下文c从数据库中检索。这将创建一个集𝒞相关信息：

3.4大型语言模型生成

回答查询的最后一步q涉及提示构造，其中将从知识图谱中检索到的信息提供给大型语言模型以帮助其回答。这是通过定义一组系统指令来完成的，这些指令指定 LLM 旨在回答包含其自身知识和给定检索到的知识的问题。例如，我们将系统指令定义为：

Isys=’You are designed to help answer questions using retrieved knowledge. Not all knowledge given need to be used but focus on the most important information. Remember this knowledge, if there is any, to help your decision making:’

(9)

然后是最后的提示Pgiven to LLM 是通过连接系统指令、查询和检索到的知识图谱信息来构建的：

最终答案一个法学硕士然后由 LLM 生成：

4试验设计

4.1知识图谱

为了测试 ARKNESS 的功效，我们首先创建了我们的加工知识图谱，该图谱由研究和技术文件组成，涵盖 5 轴铣削能力、CNC 加工中的工业机器人集成、CNC 加工的可持续性、CNC 编程和工艺规划以及 CNC 加工的基础知识。通过将 ARKNESS 暴露在一系列复杂程度、特定领域的术语和组装的文档中，可以对模型的 CNC 加工知识进行全面评估。每个文档都使用第 3.2 节中详述的自动图形构建管道使用 GPT-4o 进行处理[26].以下框中给出了给定文本信息的输出示例[27].表 1 列出了所选每个文档的描述以及处理后的实体、关系和三元组的总数。总的来说，完整的知识图谱包含 4329 个三元组、6659 个唯一实体和 1251 个唯一关系，提供了一个相对较大的图来测试，以测试 ARKNESS 的能力、稳健的推理，以及跨不同 CNC 加工场景的准确知识检索。下面给出了给定文本输入的 graph-construction 输出示例：

输入：

5 轴 CNC 铣床是一种用于精度的复杂设备以高精度和一致性加工复杂零件。它有五个运动轴，可以向各个方向移动切削工具创建复杂的形状和轮廓。该机器设计用于执行各种作，包括铣削、钻孔、切割和雕刻，使用多个移动轴。 5 轴 CNC 铣床可以使用加工作过程中的五个运动轴可能很困难或使用传统的 3 轴机床是不可能实现的。

输出：

5 轴数控铣床，用于精密加工，“A 5 轴数控机床” 铣床是一种用于精密加工的精密设备具有高精度和一致性的复杂零件。

5 轴数控铣床，有，五个运动轴，“它有五个运动轴可以向各个方向移动切削工具以创建复杂的形状和轮廓。

5 轴数控铣床工具，执行“铣削、钻孔、切割和雕刻”， “该机器旨在执行各种作，包括铣削、钻孔、切割和雕刻，使用多个运动轴。

5 轴 CNC 铣削机床，创建高度复杂的几何形状，“5 轴 CNC 铣床可以在加工过程中使用五个运动轴创建高度复杂的几何形状使用传统难以或不可能实现的作 3 轴机器。

传统的 3 轴机床、限制、几何形状复杂性、“可能很困难的加工作或者无法使用传统的 3 轴机床来实现。

表 1：源文档及其相应知识图谱大小的概述。

公文	描述	知识图谱大小
5 轴 CNC 铣床作的能力和挑战回顾[27]	本综述调查了 5 轴 CNC 铣削的最新进展和挑战，包括误差建模和补偿、刀具路径和工艺优化、虚拟加工系统、刀具磨损和温度预测以及可持续性考虑。	# 三元组数：464# 唯一实体数：654# 唯一关系数：199
使用云技术设计和开发 CNC 加工工艺知识库[28]	本文提出了一个基于云的 CNC 加工工艺知识库，该知识库将 STEP-NC 映射到 OWL 本体，并利用 Hadoop 的 HBase 进行可扩展存储、MapReduce 驱动的查询和基于 SWRL 的推理，以实现智能、高吞吐量的工艺规划。	# 三元组数：559# 唯一实体数：828# 唯一关系数：291
探索工业机器人在 CNC 加工中的应用[29]	本文探讨了工业机器人在 CNC 加工中的部署。它详细介绍了机器人选择、工作流程和控制程序设计、关节和传动机构以及驱动系统选择，以实现自动装载/卸载并提高作灵活性、精度和效率。	# 三元组数：98# 个唯一实体：151 个# 唯一关系数：57
CNC 加工基础知识[30]	本指南对 CNC 加工基础知识进行了实用介绍，包括车间安全、工具、坐标系、铣床和车床的编程和作、2D/3D 刀具路径、工件夹具示例以及原型和短期生产的最佳实践。	# 三元组数：1902# 唯一实体数：2966# 唯一关系数：512
可持续 CNC 加工的创新方法：能源优化的机器学习视角[31]	本文通过将每轴功率监控与田口实验设计和基于树的回归相结合，为可持续的 5 轴 CNC 铣削开发了一个机器学习框架，以建模和预测能耗。	# 三元组：278# 个唯一实体：452 个# 唯一关系数：183
集成 Taguchi 和 PROMETHEE 进行 CNC 铣削加工参数优化[32]	本文将田口的正交阵列实验设计与 PROMETHEE 多标准排序方法相结合，以优化 AA6061 数控铣削的主轴转速、进给速度和切削深度。	# 三元组：227# 唯一实体数：366# 唯一关系数：74
基于 CAD/CAM 技术的 CNC 编程和加工工艺研究[33]	本文介绍了一个基于 CAD/CAM 的 CNC 编程框架，该框架使用贝叶斯工艺骨架映射将零件特征与可重用的宏流程联系起来，并应用残余高度轨迹生成和非线性误差补偿来优化多轴刀具路径。	# 三元组数：269# 唯一实体数量：443# 唯一关系数：167
基于能耗的数控机床设计研究综述[34]	本综述从能耗的角度调查了 CNC 机床建模、设计和评估的全球进展。	# 三元组数：270# 个唯一实体：470# 唯一关系数：140
CNC 机床中的机器人自动化，综述[35]	这篇综述调查了 CNC 加工中机器人驱动的进步。评估自动化物料搬运和工具更换到自适应控制、质量检查、数据分析和协作机器人对效率、精度和安全性的影响。	# 三元组数：262# 个唯一实体：380# 唯一关系数：129

4.2模型

为了严格评估模型选择如何影响框架的性能，我们在多个参数尺度上评估了一组不同的开源和闭源大型语言模型。对于开源模型，Llama 3.2 3B Instruct[36]， LLama 3.1 8B 指导[37]和 Qwen 2.5 7B 指导[38]之所以被选中，是因为它们易于访问且计算要求相对较低;其中 B 表示以十亿为单位的参数数量。通过跨越 3B、7B 和 8B 参数层，我们可以隔离模型容量和设计选择与我们的知识图谱增强之间的交互方式。在广泛的参数尺度上评估这些模型使我们能够量化补充知识图谱信息的集成如何影响整体性能。为了确定可达到的性能上限，我们还以最先进的闭源模型（包括 GPT-4o）为基准[26]、它更小的 GPT-4o-mini、双子座 2.0 Flash[39]和 Gemini 2.0 Flash-Lite[40].这些全面的模型使我们能够精确量化补充结构化知识如何缩小开源基线和领先的专有产品之间的差距。

4.3问题类别

在构建知识图谱之后，我们设计了两种问题格式，即多项选择题和开放式题型，以评估每个模型的能力。多项选择题为检索精度提供了一个受控的基准，实现了客观测量和模型之间的直接比较，而开放式问题则通过挑战模型执行生成式综合并将检索到的信息连贯地整合到综合答案中来模拟真实世界的案例研究。对于每种问题格式，都创建了两类问题，即：特定内容和特定加工。内容特定问题是指文档中编写的不需要定量分析的信息。加工特定问题是指需要定量精度和基于数值参数做出决策的问题。下面给出了每道选择题的示例：

特定内容问题哪句话最能描述 3 轴和 5 轴 CNC 铣床之间的主要区别？A. 3 轴机床用于金属，而 5 轴机床专门用于塑料。B. 5 轴机床除了包括 X、Y 和 Z 运动外，还包括工件或工具的倾斜和旋转。C. 3 轴机床比 5 轴机床更大，需要更多的占地面积。D. 5 轴机器不允许任何垂直移动，而 3 轴机器允许。

加工特定问题对于不锈钢（303）的钻孔作，建议的进给量（以英寸/转为单位）是多少？A. 0.0005 英寸/转B. 0.0010 英寸/转约 0.0020 英寸/转直径 0.0030 英寸/转

GPT-4o 的实施是为了从所选文档中生成每个问题，总共有 65 个内容特定的多项选择、45 个特定于加工的多项选择、104 个特定于内容的开放式和 45 个特定于加工的开放式。

5实验结果

图 4：大型语言模型模型准确性图作为图形遍历深度和 a）内容特定查询和 b）加工特定查询的前 K 三重检索的函数。

ARKNESS 是使用 Python、PyTorch 和每个所选模型的相应 API 实现的。我们首先探讨了知识图谱增强如何使用方程 5 定义的受控图遍历来提高大型语言模型的性能。图 4 显示了改变这些遍历深度并测量对 LLM 答案准确性影响的实验。在这些实验中，我们还专注于选择得分最高的 K 个三元组以及相应的上下文。图 4a 显示了指定内容特定的多项选择题的结果。如图所示，当我们增加从图表中检索到的前 K 个三元组的数量以提供给 LLM 时，总体趋势是性能提高。这种趋势在大多数测试的深度中都是如此，因为有一个例外，即深度 1 的 GPT-4o mini 性能下降，可能是因为额外的图形衍生信息是多余的或信息较少，压倒了模型的初始上下文。Gemini 2.0 Flash 在深度 0 处从未提供信息（Top K 为 0）到前 K 10 之间显著增加，准确度从 0.867 增加到 0.933。还可以观察到，随着深度的增加，检索到的前 K 个数据的性能会趋于稳定，这表明对于这些类型的问题，深度 0 是最佳选择，因为额外的信息不会产生更多的好处。这种稳定性意味着初始检索的上下文已经足够丰富，并且在深度为零之后加入额外的图形派生细节无法提高模型准确性，甚至可能引入多余的噪声。与特定内容的问题相比，我们观察到定量加工特定问题的趋势明显更大，性能改进体现在所有深度和前 K 值上，如图 4b）所示。这表明额外的图形派生上下文在准确识别特定于机器的查询的正确定量值方面起着至关重要的作用，深度稳定在 2 附近表明这些更具挑战性的问题受益于更深入的图形遍历以捕获必要的相关信息。

图 5：知识图谱完整性级别的平均大型语言模型准确性性能的雷达图，范围从基线（0%）到完整图（100%），适用于 a）内容特定和 b）加工特定多项选择查询。

图 5 展示了我们在不完整知识图谱条件下的模型，以模拟真实世界的场景，其中可用数据可能是部分或稀疏连接的。这种方法不仅测试了图增强机制的稳健性，还帮助我们了解缺失的节点和关系如何影响相关信息的检索，并最终影响 LLM 响应的准确性。我们再次在不同的图形大小下测试了相同的上述 LLM，特别是无图形的基线、25%、50%、75% 和完整图形 100%。我们随机放置了三元组以获得选定的图形大小，并且每个模型针对每个相应的图形大小进行了 10 次测试，图上报告了平均值，绿色百分比增加表示增加图形大小时所有测试模型的最大增加。图 5a 显示了各种 LLM 中特定于内容的问题的性能指标。结果表明，当提供额外的图形上下文时，只有适度的改进，这表明这些问题在很大程度上可以通过每个模型可用的基线上下文信息来解决。值得注意的是，当图形大小从基线增加到 25% 时，可以观察到最大的性能提升，即绝对增加约 3%，这表明虽然补充检索的数据提供了一些好处，但对于特定于内容的查询，其影响仍然相对有限。图 5b 说明了扩展图形大小如何影响更专业的定量加工特定问题的性能。与图 5a 中特定于内容的查询不同，当图表增长到超过基线水平时，这些问题表现出更明显的增益，该基线水平由整个模型的最大增加幅度更大。在将闭源模型与开源模型进行比较时，GPT-4o 有效地利用了额外的图形上下文，在与基线相比，图形大小为 100% 的情况下，性能提高了 12.1%。此外，Gemini 2.0 Flash-Lite 在图形大小为 100% 时，与基线相比实现了 15.1% 的相对较高的增长。相比之下，开源的 Llama 3.2 3B Instruct 在图大小为 100% 时显示出与基线相比，相对增益更大，为 20.3%，这表明这些可能具有较低基线性能的模型可以通过增强的外部环境得到显著提升。值得注意的是，在较小的开源模型中看到的显著改进意味着，在制造环境（例如工厂车间）中，这些模型在通过额外的上下文信息进行增强时可能特别有效。它们较低的计算开销和更快的推理速度使其特别适合部署在成本效率和快速响应至关重要的实时工业环境中。

表 2：每个大型语言模型的基准准确性和 F1 分数性能在基线和知识图之间。绝对增加（或无变化）为绿色，减少为红色。

型	文件	基线		知识图谱
型	文件	准确性	F1 分数	准确性	F1 分数
双子座 2.0 闪光灯	特定内容	0.867	0.535	0.933 （+0.066）	0.569 （+0.034）
双子座 2.0 闪光灯	加工专用	0.267	0.152	0.517 （+0.250）	0.224 （+0.072）
双子座 2.0 Flash-Lite	特定内容	0.933	0.888	0.933 （0.000）	0.688 （-0.200）
双子座 2.0 Flash-Lite	加工专用	0.333	0.277	0.567 （+0.234）	0.338 （+0.061）
GPT-4o 机器人	特定内容	0.933	0.716	0.950 （+0.017）	0.719 （+0.003）
GPT-4o 机器人	加工专用	0.667	0.464	0.733 （+0.066）	0.573 （+0.109）
GPT-4o 迷你	特定内容	0.933	0.906	0.933 （0.000）	0.901 （-0.005）
GPT-4o 迷你	加工专用	0.567	0.391	0.683 （+0.116）	0.549 （+0.158）
羊驼 3.1 8B 指示	特定内容	0.940	0.925	0.953 （+0.013）	0.940 （+0.015）
羊驼 3.1 8B 指示	加工专用	0.433	0.244	0.633 （+0.200）	0.404 （+0.160）
羊驼 3.2 3B 指导	特定内容	0.933	0.718	0.950 （+0.017）	0.712 （-0.006）
羊驼 3.2 3B 指导	加工专用	0.367	0.319	0.583 （+0.216）	0.543 （+0.224）
Qwen 2.5 7B 指令	特定内容	0.867	0.580	0.883 （+0.016）	0.614 （+0.034）
Qwen 2.5 7B 指令	加工专用	0.567	0.371	0.700 （+0.133）	0.463 （+0.092）

表 2 提供了基线模型性能与结果之间的基准比较，其中两个多项选择数据集的知识图谱信息的最小可行集成（即，选择的 Top K 为 10，深度为 0）。准确率和 F1 分数的结果均以基线和知识图谱增强输出之间的绝对增加或无增加（以绿色突出显示）和任何下降（以红色显示）进行报告。如表所示，对于基准性能已经很高的内容特定问题，改进非常有限，准确性范围为 0.013 到 0.066。然而，即使是这种相对较小的提升也表明，包含知识图谱会提供有价值的特定领域见解，从而进一步优化响应。另一方面，对于定量加工的特定问题，结果要大得多。例如，Gemini 2.0 Flash-Lite 的准确率提高了 0.250，F1 分数提高了 0.072。同样，Llama 3.2 3B Instruct 和 Llama 3.1 8B Instruct 的准确率分别提高了 0.216 和 0.200。这些改进提供了证据，证明知识图谱提供的结构化、特定于领域的上下文有效地解决了每个 LLM 内部表示的缺陷。应该注意的是，在测试内容特定问题时，Gemini 2.0 Flash-Lite 的 F1 分数显着下降了 0.200。这种下降可能归因于知识图谱提供的额外上下文，虽然这通常是有益的，但会增加输入的复杂性，并导致模型的内部表示和最终决策的混淆。总之，尽管一些局部下降可能是由于输入复杂性增加，但知识图谱信息的集成始终提高了大多数模型的性能，在内容特定和定量加工特定查询中为特定领域的准确性和可靠性提供了显着改进，从而证明了其在技术应用中增强 LLM 输出的关键价值。

图 6：将基线输出与知识图谱数据增强的模型进行比较，评估大型语言模型在 10 次运行中的平均性能。a）显示内容特定问题的性能，以及 b）描述跨语义相似性、ROUGE-1、ROUGE-2 和 ROUGE-L 指标处理特定问题的结果。表 3：来自开源模型 Llama 3.2 3B Instruct、Llama 3.1 8B Instruct 和 Qwen 2.5 7B Instruct 的开放式响应，关于 CNC 加工的钻头尺寸。扎根的定量答案以黄色突出显示，基线值以红色突出显示，知识图谱增强值以绿色突出显示。

型号 / 问题	Drill Size 82 的十进制等效值是多少？	Drill Size 84 的十进制等效值是多少？	钻头尺寸 89 的十进制等效值是多少？
接地气的答案	Drill Size 82 的十进制等效值为 0.0125 英寸。	钻头尺寸 84 的十进制等效值为 0.0115 英寸。	Drill Size 89 的十进制等效值为 0.0091 英寸。
羊驼 3.1 8B 指示	基线：我们发现钻头尺寸 82 实际上相当于 0.082 英寸。这是因为数字 82 表示序列中的第 82 个钻孔大小，而十进制等效值是使用考虑钻孔大小和序列的公式计算的。知识图谱：钻头尺寸 82 的十进制等效值是 .0125 英寸。	基线：钻头尺寸 84 的十进制等效值是 0.84 英寸，也可以表示为分数 84/64。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：钻头尺寸 89 的十进制等效值约为 0.139 英寸。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。
羊驼 3.2 3B 指导	基线：根据标准钻头尺寸表，钻头尺寸 82 对应于 0.820 英寸的直径。知识图谱：要找到钻头大小 82 的十进制等效值，我们需要查看提供的信息。钻头尺寸 82 对应于 .0125 英寸的十进制等效值。	基线：钻头尺寸 84 是指直径为 84 mm 的钻头。要将其转换为十进制等效值，我们只需将直径表示为十进制数。在这种情况下，钻头尺寸 84 的十进制等效值为 84.00 毫米。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：钻头尺寸 89 的十进制等效值为 0.89 英寸或 0.0089 英寸。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。
Qwen 2.5 7B 指令	基线：“钻头尺寸 82”可能对应于直径为 82 千分之一英寸的钻头。当以小数表示时，这转换为 0.82 英寸。知识图谱：钻头尺寸 82 的十进制等效值为 0.0125 英寸。	基线：Drill Size 84 的十进制等价物通常是指美国习惯系统中的钻头尺寸......四舍五入到小数点后四位，相当于 Drill Size 84 的十进制值约为 0.0119 英寸。知识图谱：Drill Size 84 的十进制等效值为 0.0115 英寸。	基线：钻头尺寸 89（通常指美国习惯系统中的钻头尺寸）的十进制等效值为 1/2 英寸。知识图谱：钻头尺寸 89 的十进制等效值为 0.0091 英寸。

我们的下一个实验检查了 LLM 回答开放式问题与多项选择题的能力。在本节中，我们试图了解模型在需要生成没有预定义选项的答案时的表现，与它们可以从一组有限的潜在响应中进行选择时进行比较。这种方法使我们能够评估外部知识增强在更不受约束的场景中的效果。图 6 提供了每个数据集针对四个不同指标进行 10 次运行的平均结果：语义相似性、 ROUGE-1、 ROUGE-2 和 ROUGE-L。在这里，语义相似性通过比较生成的答案和参考响应的向量嵌入来评估它们之间的含义接近性，从而捕捉到超越单纯单词匹配的整体语义内容。ROUGE-1 测量生成的文本和接地答案之间单个单词（一元语法）的重叠，作为词汇相似性的基线指标。ROUGE-2 将此比较扩展到成对的连续单词（bigrams），从而深入了解短短语的一致性。最后，ROUGE-L 评估了生成文本和参考文本之间最长的公共子序列，突出了结构相似性和叙事流程的保留。如图 6a）所示，对于包含知识图谱中附加信息的内容特定问题，大多数模型在所有指标中的总体得分都较高。对于 GPT-4o、GPT-4o mini、Gemini 2.0 Flash、Gemini 2.0 Flash-Lite、Llama 3.1 8B Instruct 和 Llama 3.2 3B Instruct 等型号尤其如此，这些型号增加了 3.1 以上×用于 ROUGE-1， 2.8×对于 ROUGE-2 和 2.9×用于 ROGUE-L。这些实质性的乘法增益清楚地表明，图衍生信息的整合极大地增强了模型捕获和再现相关地面信息的能力，从而显著提高了内容特定问题中生成答案的质量和保真度。图 6b）展示了在测试定量加工特定查询时，开放式生成的更显着改进。对于语义相似性，最高有 1.2 的改进×在除 Gemini 2.0 Flash-Lite 之外的所有型号中。对于 ROUGE 指标，与基线相比，所有模型的分数都增加了 8.5 分×, 8.8×和 8.1×分别用于 ROUGE-1、ROGUE-2 和 ROUGE-L。这些结果提供了证据，需要精确数字准确性和技术细节的定量问题尤其受益于丰富的上下文。虽然语义相似性表明对定量内容的基本理解已经很强，但 ROUGE 分数的实质性提高表明，额外的上下文有助于模型生成更准确和详细的定量响应。

表 4：闭源模型 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite、GPT-4o 和 GPT-4o-mini 对 CNC 加工钻头尺寸的开放式响应。扎根的定量答案以黄色突出显示，基线值以红色突出显示，知识图谱增强值以绿色突出显示。

型号 / 问题	Drill Size 82 的十进制等效值是多少？	Drill Size 84 的十进制等效值是多少？	钻头尺寸 89 的十进制等效值是多少？
接地气的答案	Drill Size 82 的十进制等效值为 0.0125 英寸。	钻头尺寸 84 的十进制等效值为 0.0115 英寸。	Drill Size 89 的十进制等效值为 0.0091 英寸。
双子座 2.0 闪光灯	基线：钻孔尺寸通常用数字、字母或分数英寸表示。钻孔尺寸 82 是带编号的钻孔尺寸。编号的钻头尺寸范围从 80 号（0.0135 英寸）到 1 号（0.228 英寸）不等。大小会随着数量的减少而增加。钻头尺寸 82 等于 0.0156 英寸。知识图谱：钻头尺寸 82 的十进制等效值是 .0125 英寸。	基线：钻头尺寸 84 的十进制等效值为 0.0095 英寸。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：Drill Size 89 的十进制等效值为 0.2010 英寸。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。
双子座 2.0 Flash-Lite	基线：钻头尺寸 82 的十进制等效值约为 0.0400 英寸。知识图谱：钻头尺寸 82 的十进制等效值为 .0125 英寸。	基线：Drill Size 84 的十进制等效值为 0.040 英寸。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：钻头尺寸 89 的十进制等效值约为 0.040 英寸。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。
GPT-4o 机器人	基线：对于钻头尺寸 82（编号钻头系统的一部分），十进制等效值为 0.0120 英寸。知识图谱：钻头尺寸 82 的十进制等效值是 .0125 英寸。	基线：在标准数字钻头尺寸系统中，最小尺寸为 80，相当于 0.0135 英寸的直径。如果您引用的钻孔尺寸超出此标准范围，则可能是印刷错误或特定于特定制造商或应用的非标准尺寸。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：在标准编号钻头的上下文中，通常不识别钻头尺寸 89。标准编号的钻头尺寸从 80 号开始，十进制相当于 0.0135 英寸。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。
GPT-4o-迷你	基线：钻头尺寸 82 的直径约为 0.4130 英寸。知识图谱：钻头尺寸 82 的十进制等效值是 .0125 英寸。	基线：钻头尺寸 84 对应于 0.0860 英寸的直径。知识图谱：钻头尺寸 84 的十进制等效值为 .0115 英寸。	基线：钻头尺寸 89 对应于大约 0.0135 英寸的直径。知识图谱：钻头尺寸 89 的十进制等效值是 .0091 英寸。

除了使用语义相似度和 ROUGE 分数等定量指标来评估每个模型的回答外，我们还包括为定量问题生成的完整答案。这种方法不仅突出了闭源模型和开源模型之间的差异，而且还更深入地了解每个模型如何将检索到的图知识集成到其响应中。表 3 和表 4 显示了钻取大小问题的基线和知识图谱增强输出，这些问题分别侧重于准确确定开源和闭源模型的正确钻取大小值。每个问题的正确定量答案以黄色突出显示，基线 LLM 值以红色突出显示，每个表的知识图谱增强值以绿色突出显示。如图所示，知识图谱的使用通过纠正基线答案中存在的幻觉，始终如一地改善了 LLM 答案的所有开放式输出。例如，在开源组中，Llama 3.2 3B 和 Llama 3.1 8B 等模型提供的基线答案与接地值明显偏差（例如，对于钻头尺寸 82，报告 0.820 英寸或 0.082 英寸），而当使用知识图谱进行增强时，这些模型均匀收敛到正确的十进制等效值 0.0125 英寸。同样，Qwen 2.5 7B Instruct 将钻孔尺寸数字与其以英寸为单位的等效值混淆，但这已通过图表中的信息有效地补救。闭源模型表现出类似的趋势，Gemini 2.0-flash、Gemini 2.0-flash-lite、GPT-4o 和 GPT-4o-mini 都显示出不正确的定量答案。这些答案从几乎正确的值（例如 GPT-4o 对钻头尺寸 0.012 的输出为 82 英寸）到非常不准确的值（包括 GPT-4o-mini 对相同钻头尺寸的输出为 0.4130 英寸）。在开源和闭源模型之间进行比较时，较小的开源模型往往会将钻孔尺寸数字与其相应的十进制值混淆，从而有效地将数字标签误认为测量本身。相比之下，闭源模型经常产生完全不正确的值。在某些情况下，例如使用 GPT-4o，该模型声称指定的钻孔大小不存在。这些结果强调了在开放式场景中整合知识图谱的价值，在这些场景中，没有给出正确转换钻孔尺寸信息的选择。

表 5：来自开源模型 Llama 3.2 3B Instruct、Llama 3.1 8B Instruct 和 Qwen 2.5 7B Instruct 的开放式响应关于 CNC 加工作的参数选择。扎根的定量答案以黄色突出显示，基线值以红色突出显示，知识图谱增强值以绿色突出显示。

型号 / 问题	对于钢（4140）的钻孔作，建议使用什么切削速度（SFM）？	对于铝的攻丝作，推荐什么切削速度（SFM）？	对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑负载是多少？
接地气的答案	对于钢（4140）的钻孔作，建议使用 90 SFM 的切削速度。	对于铝的攻丝作，建议使用 100 SFM 的切削速度。	对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议每转 0.004 英寸的切屑载荷。
羊驼 3.1 8B 指示	基线：对 4140 钢进行钻孔作时，建议的切割速度为 50 至 300 SFM，具体取决于钻头类型和所需的光洁度。知识图谱：对于钢（4140）的钻孔作，建议的切割速度为 90 sfm。	基线：一般来说，根据具体条件，铝攻丝的推荐切削速度在 50 到 150 SFM 之间。知识图谱：对于铝的攻丝作，建议的切割速度为 100 sfm。	基线：黄铜上切屑载荷的一个常用范围是每齿 0.002 到 0.008 英寸（ipt）之间。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑载荷为 0.004 ipr。
羊驼 3.2 3B 指导	基线：对于 4140 钢的钻孔作，推荐的切削速度通常为 60 至 120 SFM，最佳速度取决于特定的钻孔条件。知识图谱：对于钢（4140）的钻孔作，建议使用 90 SFM 的切削速度。	基线：对于铝合金的攻丝作，通常建议 30 至 50 FPM 的切削速度，但最佳切削速度可能因应用、工具和加工条件而异。知识图谱：对于铝的攻丝作，建议的切割速度为 100 sfm。	基线：对于黄铜的铣削作，一般的经验法则是，对于直径在 0.5 到 1.0 英寸之间的刀具，使用 0.002 到 0.005 英寸之间的切屑载荷。知识图谱：根据提供的上下文，对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑载荷为每转 0.004 英寸（ipr）。
Qwen 2.5 7B 指令	基线：用于钻探 4140 钢的推荐 SFM 通常在每分钟 25 到 35 英尺（FPM）之间。知识图谱：对于钢（4140）的钻孔作，建议的切削速度（SFM）为 90 sfm。	基线：对于铝材的攻丝作，建议的切割速度（每分钟表面进尺，SFM）通常在 100 到 200 SFM 之间。知识图谱：对于铝材的攻丝作，建议的切削速度（SFM）为 100 sfm。	基线：此范围内的切屑负载的常见起点约为 0.003 至 0.005 英寸/齿（IPM）。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议使用每转 0.004 英寸（ipr）的切屑载荷。

表 6：闭源模型 Gemini 2.0 Flash、Gemini 2.0 Flash-Lite、GPT-4o 和 GPT-4o-mini 关于 CNC 加工作参数选择的开放式响应。扎根的定量答案以黄色突出显示，基线值以红色突出显示，知识图谱增强值以绿色突出显示。

型号 / 问题	对于钢（4140）的钻孔作，建议使用什么切削速度（SFM）？	对于铝的攻丝作，推荐什么切削速度（SFM）？	对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑负载是多少？
接地气的答案	对于钢（4140）的钻孔作，建议使用 90 SFM 的切削速度。	对于铝的攻丝作，建议使用 100 SFM 的切削速度。	对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议每转 0.004 英寸的切屑载荷。
Gemini 2.0-闪光灯	基线：4140 钢是一种中碳低合金钢，以其高强度和良好的淬透性而闻名，钻孔作业的典型切削速度通常在 70 至 120 SFM 之间。知识图谱：对于钢（4140）的钻孔作，建议使用 90 SFM 的切削速度。	基线：对于 6061-T6 等铝合金的通用攻丝，通常的起点是 30 到 60 SFM 之间。然而，像 1100 或 3003 这样的较软合金通常可以以更高的速度切削，可能高达 75 SFM 或更高。知识图谱：对于铝的攻丝作，建议使用 100 SFM 的切削速度。	基线：铣削刀具直径在 0.5 到 1.0 英寸之间的黄铜的推荐切屑载荷通常在每齿 0.001 到 0.004 英寸的范围内。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议使用每转 0.004 英寸（ipr）的切屑载荷。
双子座 2.0-flash-lite	基线：对于高速钢（HSS）钻头，钻削 4140 钢时切削速度的起点通常在硬化状态下钢每分钟 40 至 60 表面英尺（SFM）的范围内。知识图谱：对于钢（4140）的钻孔作，建议的切削速度为 90 SFM。	基线：对于大多数铝合金，切削速度的起点通常在每分钟 50 至 200 表面英尺（SFM）的范围内。知识图谱：对于铝的攻丝作，建议使用 100 SFM（每分钟表面英尺数）的切削速度。	基线：对于铣削刀具直径在 0.5 到 1.0 英寸之间的黄铜，0.003 到 0.010 IPT 的切屑载荷是一个很好的起点。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议使用每转 0.004 英寸（ipr）的切屑载荷。
GPT-4o 机器人	基线：对于硬度通常约为 150-200 布氏的退火 AISI 4140 钢，使用高速钢（HSS）钻头时，推荐的切割速度通常在每分钟 70 至 100 表面英尺（SFM）的范围内。知识图谱：对于钢（4140）的钻孔作，建议使用 90 SFM 的切削速度。	基线：攻丝铝的推荐切削速度通常为每分钟 75 至 150 表面英尺（SFM）。知识图谱：对于铝的攻丝作，建议使用每分钟 100 表面英尺（SFM）的切削速度。	基线：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的一般铣削作，典型的切屑负载建议范围约为每齿 0.002 至 0.010 英寸（IPT）。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑载荷为每转 0.004 英寸（ipr）。
GPT-4o-迷你	基线：通常，对于 4140 钢的钻孔作业，使用高速钢（HSS）钻头时，通常建议切削速度在 60 至 100 SFM 范围内。知识图谱：对于钢（4140）的钻孔作，建议的切割速度为每分钟 90 表面英尺（SFM）。	基线：对于大多数铝合金，攻丝速度的常见建议在 100 到 300 SFM 范围内。知识图谱：对于铝的攻丝作，建议的切割速度为每分钟 100 表面英尺（SFM）。	基线：对于黄铜，这是一种相对较软且具有延展性的材料，建议的切屑载荷通常在每齿 0.002 至 0.008 英寸的范围内。知识图谱：对于刀具直径在 0.5 到 1.0 英寸之间的黄铜的铣削作，建议的切屑载荷为每转 0.004 英寸（ipr）。

表 5 和表 6 分别显示了开源和闭源模型对有关选择正确工艺参数的定量问题的回答，这对于确保最佳加工性能、精确材料去除和提高刀具寿命在不同作条件下尤为重要。与前面提到的表格类似，每个问题的正确定量答案以黄色突出显示，基线 LLM 值以红色突出显示，知识图谱增强值以绿色突出显示。对于开源模型，基线输出通常提供广泛的值范围，例如 Llama 3.2 3B Instruct 建议的范围为每分钟 60 至 120 表面英尺（SFM），Llama 3.1 8B Instruct 建议的范围为 50 至 300 SFM。这些宽范围反映了不确定性和对通用指南的依赖，这些指南不允许用户确定技术文件中规定的最佳工艺参数。然而，当 LLM 使用知识图谱信息进行增强时，这些模型会集中在精确建议 90 SFM 用于钻孔 4140 钢，100 SFM 用于攻丝铝，以及铣削黄铜的切屑负载为每转 0.004 英寸（IPR），与接地答案正确对齐。这种从宽泛的模糊范围到单个明确定义的值的转变凸显了特定领域信息的纠正影响。闭源 LLM 表现出类似的趋势，经常以宽范围提供参数建议，这反映了固有的不确定性和缺乏行业特定的技术标准。然而，当使用知识图谱进行增强时，模型再次收敛到正确推荐的工艺参数。对开放模型和封闭模型进行比较后发现，所有模型都倾向于为钻孔、攻丝和铣削等作推荐宽泛且不精确的参数范围。无论模型大小或架构如何，基线输出始终显示宽范围，无法考虑材料特性和精确加工要求。这表明模型固有的复杂性和规模不一定转化为特定领域加工标准的准确内部表示。总之，如果不集成知识图谱信息，输出仍然过于通用，无法指导最佳参数选择，这表明结构化、特定领域的数据对于限制输出和校准工艺参数以符合经过验证的制造标准至关重要。

6结论

本文介绍了 ARKNESS（增强检索知识网络增强搜索和合成），这是一种与 LLM 无关的混合管道，它将语义丰富的自动构建知识图谱与任何大型语言模型相结合，以提供扎实且数值精确的答案。ARKNESS 通过段落级实体关系提取提供在技术信息中验证的可追溯答案，将异构文档格式转换为三元组，同时保留其原始上下文信息。然后，通过将知识图谱存储在关系数据库中，我们可以利用向量嵌入搜索和光束搜索来检索最相关的三元组和上下文信息，从而调节 LLM 为用户查询提供精确的、经过技术验证的答案。针对特定内容和加工特定查询的多项选择题的实验表明，准确率提高了 25%，F1 分数提高了 22.4%。对于开放式问题，提升高达 8.1×对于 ROGUE-L 分数表明，相对于扎实的答案，该框架改善了生成响应的结构和语义信息。这些优势可以消除 LLM 中普遍存在的幻觉，从而增强工艺规划和在 CNC 加工环境中的实用性。未来的工作将侧重于将 ARKNESS 扩展到异构多模态知识图谱，进一步加强事实基础，以实现先进制造环境中的闭环决策支持。

知识图谱与大型语言模型融合，实现准确、可解释的制造流程规划

抽象

1介绍