AOE性能调优问题案例

昇腾社区-官网丨昇腾万里让智能无所不及开发者主页-昇腾社区。

昇腾小编

887人浏览 · 2023-12-28 11:22:14

昇腾小编 · 2023-12-28 11:22:14 发布

本期就分享几个关于AOE性能调优问题的典型案例，并给出原因分析及解决方法。

01调优过程中进程异常退出

问题现象描述

在调优过程中，可能会出现如下类似报错。
现象1：调优直接异常终止，出现类似下面的信息：

现象2：触发进程退出，调优日志中出现类似下面红框的信息：

原因分析

可能原因是内存不足，可以通过如下步骤进行分析。
使用dmesg命令确认操作系统是否触发"Out of memory"导致进程退出。
dmesg |grep "Out of memory"
系统显示如下类似信息，表示触发了"Out of memory"。

[519308.099433] Out of memory: Killed process 994362 (aoe) total-vm:23064888kB, anon-rss:16472380kB, file-rss:0kB, shmem-rss:0kB, UID:0 pgtables:35352kB oom_score_adj:0

处理步骤

更换为有更大Host内存的调优环境。

02 无法命中调优生成的知识库

现象描述

使用AOE完成调优后，生成了知识库，但在ATC转模型时却无法命中生成的知识库。

可能原因

AOE性能调优和ATC模型转换时，存在一些相同的参数，这些参数可能会影响网络的shape、网络中部分算子的dtype、网络结构等，所以这些参数在AOE性能调优和ATC模型转换/AOE再次调优时需要保持一致。参数范围及具体影响如下。

input_format：影响输入数据格式。
input_shape：影响模型输入数据的shape。
output_type：影响网络输出数据类型或影响某个输出节点的数据类型。
insert_op_conf、fusion_switch_file、enable_scope_fusion_passes、enable_small_channel：影响网络结构。
out_nodes：影响网络中的输出节点。
input_fp16_nodes：影响输入节点的数据类型。
is_input_adjust_hw_layout：影响网络的输入数据类型和格式。
is_output_adjust_hw_layout：影响网络的输出数据类型和格式。
precision_mode、op_precision_mode、modify_mixlist、keep_dtype、op_select_implmode、optypelist_for_implmode：影响网络部分算子的dtype。
dynamic_batch_size、dynamic_image_size、dynamic_dims：影响网络的shape。

处理步骤

在AOE性能调优和ATC模型转换/AOE再次调优时，可能原因中的参数取值需要保持一致。

03参数设置不合理，导致报错内存不足

现象描述

TensorFlow训练场景下调优时，可能会出现如下类似报错。
第一种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current var size[13962468864] exceeds total var size[13958643712]

第二种报错

[ERROR] GE(685297,python3):2022-04-06-07:15:09.383.996 [graph_var_manager.cc:402]687614 AssignVarMem: ErrorNo: 1343225857(Parameter's invalid!) [COMP][MEM_ALLOC][Check][Param] Out of memory: current graph size[13962468864] exceeds total graph size[13958643712]

可能原因

报错内存不足的可能原因是：TensorFlow训练脚本中的内存相关参数（graph_memory_max_size：网络静态内存和最大动态内存、variable_memory_max_size：变量内存）设置不合理，当调优过程中内存超过这些参数取值时，系统报错。

处理步骤

针对分析的可能原因，请参考以下方法处理：
修改sess.run模式下的session配置项或者Estimator模式下的npu_bridge.estimator.npu.npu_config。具体步骤如下。

第一种报错处理办法：修改variable_memory_max_size的取值为报错信息中的current var size + 1GB，修改graph_memory_max_size的取值为31GB - variable_memory_max_size。
第二种报错处理办法：修改graph_memory_max_size的取值为报错信息中的current graph size + 1GB，修改variable_memory_max_size的取值为31GB - graph_memory_max_size。

修改示例如下：

sess.run模式

custom_op.parameter_map["graph_memory_max_size"].s = tf.compat.as_bytes(str(26*1024 * 1024 * 1024))

Estimator模式

config = NPURunConfig(graph_memory_max_size=str(26*1024 * 1024 * 1024)) 
variable_memory_max_size

04 更多介绍

[1]昇腾文档中心：昇腾社区-官网丨昇腾万里让智能无所不及
[2]昇腾社区在线课程：开发者主页-昇腾社区
[3]昇腾论坛：https://www.hiascend.com/forum

昇腾AI开发者社区

昇腾万里，让智能无所不及

更多推荐

分布式数据库技术的演进和发展方向

昇腾AI开发者社区

昇腾CANN 7.0 黑科技：大模型推理部署技术解密

昇腾AI开发者社区

昇腾910产品编译mindspore v1.3.0版本，CANN是5.0.2.1版本

编译mindspore v1.3.0版本，CANN是5.0.2.1版本【操作步骤&问题现象】1、执行bash build.sh -e ascend 出现错误如下所示root@ubuntu:~/mindspore-v1.3.0# bash build.sh -e ascend---------------- MindSpore: build start ----------------fatal: