-
基于大数据的高炉炉缸活性评价及预测 安晓磊1, 张钰鑫3, 崔泽乾1, 石 泉1, 储满生1,2, 唐 珏1 (1.东北大学冶金学院,辽宁 沈阳 110819;2.轧制技术及连轧自动化国家重点实验室,辽宁 沈阳 110819;3.东北大学计算机科学与工程学院,辽宁 沈阳 110819) 摘 要:传统高炉炉缸活性分析存在依赖经验系数、涉及参数过少等弊端,没有挖掘炉缸活性与原燃料、高炉操作间的内在关联。为此,采集某高炉生产数据,运用机器学习方法对燃料比、出铁次数、理论燃烧温度、焦比、鼓风动能等生产数据,进行数据清理和数据挖掘,结合炼铁机理与传统炉缸活性评价机理模型,建立高炉炉缸活性评价模型,预测未来一段时间内的炉缸活性指数。采用K-Means算法将炉缸活性划分为4个等级,根据线性回归预测得到的炉缸活性指数预测值与真实值基本重合,预测准确率达到88.2%。
关键词:高炉;炉缸活性;大数据;评价;预测
近年来,高炉炉缸活性评价及优化越来越重要炉缸活性指炉缸内燃烧的稳定性和燃烧效率,是保证生产质量和经济效益的关键因素。当炉缸活性较好时,高炉容易稳定顺行:当炉缸活性恶化时,往往导致高炉难以操作。及时掌握炉缸活性的变化情况,并维护炉缸,有利于延长高炉寿命!。传统的炉缸活性评价方法,通常采用传感器和数据采集系统,对炉缸内的温度、压力、富氧率等参数进行监测和采集,利用数学模型或经验公式进行数据处理和分析得到评价结果。炉缸活性分析存在依赖经验系数、涉及参数过少等弊端,没有挖掘炉缸活性与原燃料、高炉操作间的内在关联。
陈辉等人[2]深入分析,比较渣铁流入炉缸的阻力系数和渣铁排出炉缸的阻力系数,通过阻力系数
大小关系来判断炉缸活性的高低。代兵等人根据前人判断渣铁流动阻力系数的方法,创立了一种新的炉缸活性指数模型HWA。张伟阳等人[4]根据热电偶温度、热流强度和炉缸活性的历史趋势,建立了炉缸可视化系统。陈辉和代兵等人建立的都只是一种机理模型,导致最后得出的炉缸活性结果与实际有较大偏差。而张伟阳等人虽然将热电偶温度,热流强度与生产数据相结合,用于炉缸可视化,但是未将炉缸活性与传统机理模型相融合。
考虑到炉缸活性受原料的影响较大,本文运用机器学习方法对某高炉燃料比、出铁次数、理论燃烧温度、焦比、鼓风动能等生产数据,进行数据清理和数据挖掘,结合传统炼铁机理与传统炉缸活性评价机理模型,回归出数据模型评价炉缸活性。最终,根据生产数据,并结合数据模型,预测未来一段时间内的炉缸活性指数。
1 数据处理
参数选择1.1
采集某高炉2018-2020年的生产数据,炉缸活性评价参数与平均炉顶温度、全压差、焦比、透气性指数、出铁次数等有关(见表1)。
1.2 数据清理
高炉炼铁生产具有高温、高压、时间长等特点人为操作及数据传输过程中的数据缺失会影响数据采集,可能导致数据缺失、偏离正常值、重复等后果,因此,利用大数据技术中的数据挖掘和清洗步骤,来保证数据的准确性,为后续炉缸活性评价模型提供合理的数据。通常,需要对初始数据进行缺失值的删除或填充,并对偏离正常范围的异常值进行修改[5]
(1)确定异常值。采用箱形图(Box-plot)法能直观的看到原始数据的异常值偏差。箱形图由最大值、上四分位数(03)中位数、下四分位数(01)及最小值构成。根据03+1.5(03-01)01-1.5(03-01)确定数据正常值的最大值和最小值,将最大值和最小值以外的数确定为异常值。根据箱形图的概念,某高炉炉缸活性评价参数的初始数据标准化后,画出箱形图(如图1所示)。由图1可见,初始数据中有部分异常值偏离了正常数据,需要进行处理。
序号12131415161718
19
20
21
22
简称
GL_RFYL
GL TOXZSGL LDWDGL_RFWDGL_FYLCL_SD
CL GFDN
GL LFMOL
GL LLRSWD
GL LFLL
GL JFKMJ
参数名称
热风压力
透气性指数
炉底温度
热风温度富氧率
湿度
鼓风动能
炉腹煤气量
理论燃烧温度
冷风流量
进风面积
(2)清理异常值。将异常值直接删除,或者用插补法在空缺部分插人数据。常用的插补法可以插人该列数据的平均数、众数、中位数,或者用随机森林法将数据插人。图1每组数据中的异常值占比名不相同,异常值占比大的参数用平均数、众数、中位数插补效果不好。因此,所有参数的异常值都用随机森林法进行插补。随机森林(Random-Forest)法是一种集成学习算法,它结合了决策树和随机性的概念,由多个决策树组成,每个决策树独立地对数据进行训练和预测,然后通过投票或平均的方式来确定最终预测结果。随机森林法的基本原理包括数据集的随机采样、决策树的构建、多个决策树的集成以及随机性的引人。
①数据集的随机采样。随机森林法在给定的训练数据集上执行随机采样,这是通过有放回地随机选取数据样本的方式实现的。这一步骤生成多个不同的训练子集,使每个子集都是通过从原始数据集中随机选择的样本构建而成,
②决策树的构建。随机森林法采用决策树算法(通常是CART算法)来进行构建,每个训练子集都用来构建一个独立的决策树模型。在每棵决策树的构建过程中,随机森林法从完整的特征集中随机选择一部分特征,然后选取最佳特征进行节点划分。
③决策树的集成。随机森林法由多棵决策树组成,并将它们集成一个综合模型,在回归问题中,每个决策树的预测结果取平均值。
4引人随机性。随机森林法引人两个关键的随机性机制,首先在每棵决策树的构建中,随机选择特征子集,以减少特征之间的相关性:其次在决策树的
1.0
0.8
3
'[IS]Ж澜
0.6
0.0.2
0
。
50
100150200250
样本序列
(a)处理前
训练过程中,通过有放回地随机采样训练样本,引人样本的随机性,从而提高每棵决策树的多样性。
通过上述步骤,随机森林法能有效地减少过拟合问题,并具有较好的泛化能力。它在许多机器学习任务中都表现出色,包括分类、回归和特征选择等。因此,炉缸活性评价使用随机森林法对目标结果进行预测。对处理前后的数据进行对比,处理后的数据相比处理前较为集中。以铁水[Si为例(如图2所示),处理前有异常值严重偏离正常值,但处理后铁水[Si]数据明显集中。
2建模用指数
数,确定将出铁指数A作为评价炉缸活性的指标。
2.1 可直接计算指数
A=Y/(100xD)
式中 --铁水日产量,td;处理好选择的参数后,根据所选参数确定评价炉缸活性的指标。根据首钢高炉的炉缸工作出铁指
D--日出铁次数,次/d
2建模用指数
数,确定将出铁指数A作为评价炉缸活性的指标。
2.1 可直接计算指数
A=Y/(100xD)
式中 --铁水日产量,td;处理好选择的参数后,根据所选参数确定评价炉缸活性的指标。根据首钢高炉的炉缸工作出铁指
D--日出铁次数,次/d
根据唐钢高炉的物理热指数7],确定将物理热指数0作为评价炉缸活性的指标
0=[(T-1400)/100]/[Si]式中 7--铁水温度,℃;
(2)
[Si]--铁水[Si]含量,%。根据代兵等人的研究,合理的鼓风动能与炉缸活性的关系!8,确定将鼓风动能作为评价炉缸活性的重要指标。
(5)
y=β +β x +β,x,+...+β +ε式中 ,x,...,x--为多个自变量;Bo,B ,B,,..,B--为各自变量的系数:8--误差项。
(273 +tE=6.64x10-1xn3d4
(3)
(2)预测。对高炉热状态和高炉透气性指数通过线性回归模型进行预测,主要的操作流程为:
式中鼓风动能,kg·m/s;R
①特征选择。根据实际生产情况和所选参数之间的相关性热力图(如图3所示)选择与理论燃烧温度相关性较高的自变量。
Q-标准状况下的鼓风量,m’/min;
n--风口个数,个;
d--风口直径,m;
-热风温度,℃;
②模型训练。将数据集划分为训练集和测试集,使用训练集进行线性回归模型的训练,通过最小化残差平方和来拟会最佳的线性函数。
P--热风压力,MPa。
2.2 高炉热状态和高炉透气性指数
高炉热状态,尤其是炉缸部位的热状态非常重要,风口前理论燃烧温度是评价或衡量炉缸热状态的重要参数之一”。理论燃烧温度升高与富氧率焦炭温度有关,理论燃烧温度降低与焦炭、煤粉的灰分、煤比、鼓风湿度有关[10-n]
③模型评估。使用测试集评估线性回归模型的性能,计算评估指标(如均方误差)来衡量模型的预测精度。
④)预测。使用经过训练的模型对新输人的数据(包含富氧率、焦比、热风温度、煤比及鼓风湿度)进行预测,得到相应的理论燃烧温度。
因此,采用回归预测的方法根据富氧率、焦比热风温度 煤比及鼓风湿度等预测理论燃烧温度而高炉透气性指数也能够直接快速反映炉缸热状态,故将透气性指数也作为评价炉缸活性的重要指标。透气性指数与风量、全压差有关,采用回归预测的方法预测。
3 炉缸活性评价及预测
3.1 炉缸活性指数
如果指标的量纲和单位不一致,有可能导致最后计算的炉缸活性结果错误。因此,为了消除指标之间量纲的影响,需要进行数据归一化处理。选择将出铁指数和物理热指数以外的各组指标都归一化到[1,10]区间,分别得到鼓风动能指数、理论燃烧温度指数、炉底温度指数、透气性指数。归一化计算公式为:
(1)线性回归。线性回归是一种用于建立连续目标变量与一个或多个自变量之间线性关系的统计模型。其基本原理是通过拟合最佳的线性函数来预测目标变量的值,其基本假设是目标变量与自变量之间存在线性关系。通过寻找最佳拟合线,线性回归模型可以预测目标变量的值,其公式为:
ymax ̄Yminx(x-x min)y≡y…„ +X max-X mi式中-归一化处理后的值:-目标区间的最大值;Ymax-目标区间的最小值;ymin-本组数据的最大值:Xma--本组数据的最小值;X min-要归一化处理的数据,
(6)
y=β +β x +e式中-目标变量(要预测的值):-自变量(用于预测的特征);X6.-截距(模型的偏移量);B--自变量的系数(表示自变量对目标变量的影响):
(4)
e--误差项(表示模型无法解释的随机误
归一化后得到6组计算炉缸活性指数的指标
差)。
·65
再通过变异系数法得到相应的比例。变异系数法是一种根据评价指标当前值与目标值的差异程度来进行权重赋值的方法。当某个指标在被评价对象之间的数值差异较大时,说明该指标能更有效地区分不同对象,因此会被赋予更高的权重。反之,如果某个指标在各对象之间的数值差异较小,意味着该指标区分对象的能力较弱,因此会被赋予较低的权重。通过这种方式,运用变异系数法能够更准确地为不同指标分配适当的权重,从而更好地反映评价对象的差异性和重要性。
用变异系数计算权重步骤如下:
(1)计算每个指标Y的平均值Y平均。
Y平均=-∑”
(7)
(2)计算每个指标的标准差S
S= --∑”(Y-%*)
(8)
(3)计算每个指标的变异系数V。
饭是
(4)计算每个指标的权重巴。
W-∑-V
(5)计算炉缸活性指数F
F =W xY
(9)
(10)
(11)
得到每个指标的权重之后,即可计算炉缸活性指数,某高炉的炉缸活性指数分布如图4所示。
8
骤哥科戥理·
6
4
2
0
50100150
样本序列
200250
图4 某高炉的炉缸活性指数分布
3.2 炉缸活性等级的划分
将最终变量降维后对数据进行聚类分析,通过肘部法将其划分为4块,通过K-Means 算法聚类。
K-Means算法是一种常见的无监督机器学习算法,广泛应用于聚类分析,旨在将数据点分配到不同的簇,使得簇内数据点的相似性较高,而簇间数据点的相似性较低。在算法的核心部分,先选择簇的数量K。例如,采用肘部法则确定K的值,结果选择为4个簇。再从数据集中随机选取4个数据点,作为初始的簇中心。对于每个数据点,通过计算其与各个簇中心的距离,将其分配至距离最近的簇。在每个簇中,计算簇内数据点的平均值,然后将该平均
值作为新的簇中心。
以上步骤反复进行,直到簇中心的变化不再显著或达到预设的迭代次数为止。总体而言,K均值算法的核心目标是将数据点尽可能地分配到与其簇中心最近的位置,从而最小化平方距离之和,以实现簇内数据点的相似性,以及簇间数据点的差异性。最终将炉缸活性划分为4个等级,如图5所示。
I0
骤哥升戥玛哪
9
8
7
6
∑(-y)R =1-
(15)
号(y-)
某高炉炉缸活性指数预测值及真实值的变化如图6所示。根据线性回归预测得到的炉缸活性指数预测值,与炉缸活性指数真实值基本重合,部分区域稍有偏差,但是偏差不大,说明某高炉炉缸活性指数预测的准确率较高。
某高炉炉缸活性指数预测的准确率见表2。由表2可见,MSE、RMSE、MAE的值较小且都接近0表明预测值与真实值的误差较小。最终,选取确定系数R评价炉缸活性指数预测的准确率,测试集R为88.2%,即高炉炉缸活性指数预测的准确率达到88.2%,与图6所反映的重合情况相吻合。
5
一级
二级三级四级
炉缸活性等级
图5 某高炉炉缸活性的等级划分
3.3 炉缸活性指数的预测
类似指标选取的方法,将钢厂的初始数据用回归预测的方法,对未来的炉缸活性指数进行预测,预测得到的结果采用MSERMSEMAE MAPE以及R进行评价。
MSE(Mean Square Error)均方误差,公式为:MSE=-∑” (Y-)
(12)
RMSE(Root Mean Square Error)均方根误差,公式为:
RMSE= 亠∑’,[-/X,)]
(13)
为:
MAE(Mean Absolute Error)平均绝对误差,公式
MAE=-∑” |h(x;)-y
(14)
用MSERMSE和MAE评价的准确性,当预测值与真实值完全吻合时,MSERMSE和MAE等于0:当误差越大时,MSERMSE和MAE的值越大。
MAPE(Mean Absolute Percentage Error)为平绝对百分比误差,MAPE越接近0时,预测模型为完美模型,预测的准确率也越高。R为确定系数,R'越接近1,表明回归平方和占总平方和的比列越大,回归的拟合程度越好,预测的准确率越高
8.5
骤哥升罢玛吼6.54.5
Iuwywnyr
真实值
预测值
2.50 10 20 30 405060 70 80
序号
图6某高炉炉缸活性指数预测值及真实值的变化
表2 某高炉炉缸活性指数预测的准确率
项 目
训练集
交叉验证集
测试集
MSE
RMSE
MAE
MAPE
作
%
99.0
0.0030.056
0.0440.925
3.25984.0
0.0510.2210.157
0.0390.1970.1473.14988.2
结语D
(1)采集某高炉生产数据,对数据进行缺失值异常值和重复值的处理,保证初始数据真实可靠性,(2)通过对鼓风动能和理论燃烧温度进行预测,并与出铁指数、物理热指数和透气性指数进行统-的归一化处理,得到标准化的评价炉缸活性的指标。通过变异系数法得到各参数的权重,并结合炉缸活性计算公式,最终得到炉缸活性指数。
(3)采用K-Means算法将炉缸活性划分为4个等级,通过线性回归预测未来一段时间内的炉缸活性指数,准确率达到88.2%,
(
(责任编辑:zgltw)