مقایسه مدل‏های درخت تصمیم و یادگیری برپایه نمونه در برآورد هدایت هیدرولیکی اشباع خاک

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشجویی کارشاسی ارشد دانشگاه بیرجند

2 استادیار گروه مهندسی آب دانشگاه بیرجند

3 عضو هیات علمی دانشگاه بیرجند

چکیده

سابقه و هدف: هدایت هیدرولیکی اشباع خاک یکی از مهمترین خصوصیات هیدرولیکی خاک است که بر حرکت آب در خاک موثر است. شناخت این ویژگی می‏تواند به درک بسیاری از مشکلات زیست محیطی کمک کند. از طرفی اندازه‏گیری این ویژگی با روش‏های مستقیم مزرعه‏ای و آزمایشگاهی دشوار، زمانبر و هزینه‏بر است و استفاده از روش‏های جایگزینی را می‏طلبد که بتوان با صرف وقت، هزینه و زمان کمتری آن را از روی داده‏های زودیافت خاک تخمین زد. روش‏های ناپارامتریک از جمله روش‏های غیرمستقیم و نوین برآورد خصوصیات هیدرولیکی خاک از جمله هدایت هیدرولیکی اشباع می‏باشند. هدف از این پژوهش مقایسه روش درخت تصمیم و یک روش یادگیری برپایه نمونه ( IBk) که یک رده‏بند با k همسایه نزدیک است در برآورد هدایت هیدرولیکی اشباع خاک، از روی خصوصیات زودیافت آن است.
مواد و روش‏ها: در این پژوهش، از مجموعه داده‏ای با اطلاعات خاک‏شناسی 151 نمونه خاک که از منطقه‏ای در بجنورد گردآوری شده بود استفاده شد. خصوصیات زودیافت خاک شامل درصد شن، سیلت، رس، جرم مخصوص ظاهری، جرم مخصوص حقیقی، هدایت الکتریکی، درصد کربن آلی، درصد مواد خنثی‏شونده، رطوبت اشباع و اسیدیته بود. هدایت هیدرولیکی اشباع نمونه‏ها با استفاده از دستگاه نفوذسنج گلف اندازه‏گیری شده بود. برای تعیین مهمترین پارامترها در پیش‏بینی و مدل‏سازی هدایت هیدرولیکی اشباع، از آزمون گاما استفاده شد. ترکیبات مختلف از پارامترهای موجود در بانک داده بر اساس مقدار گاما با یکدیگر مقایسه شدند و ترکیب بهینه برای مدل‏سازی معین شد. مدل‏سازی با استفاده از دو روش ناپارامتریک یعنی درخت تصمیم با بهره‏گیری از الگوریتم M5P و روش یادگیری برپایه نمونه با بهره‏گیری از الگوریتم IBk با استفاده از ترکیب بهینه پارامترها که کمترین مقدار گاما را داشت صورت گرفت. برای بهبود عملکرد IBk دو نوع تابع وزن‏دهی فاصله استفاده شد. در آخر معیارهای ارزیابی مدل‏ها شامل ضریب تعیین (R2)، جذر میانگین مربعات خطا (RMSE)، میانگین قدر مطلق خطا (MAE) و درصد میانگین قدر مطلق خطا (MAPE) محاسبه شدند.
یافته‏ها: ترکیب بهینه‏ای که از آزمون گاما به دست آمد برای مدل‏سازی هر دو روش استفاده شد. این ترکیب شامل پارامترهای درصد شن، سیلت، رس، درصد مواد خنثی شونده، هدایت الکتریکی و جرم مخصوص ظاهری خاک بود. مدل M5P، پارامتر جرم مخصوص ظاهری خاک را به عنوان مهمترین متغیر دسته‏بندی‏کننده انتخاب کرد و سه رابطه خطی برای برآورد هدایت هیدرولیکی اشباع با توجه به مقدار جرم مخصوص ظاهری ایجاد کرد. معیارهای ارزیابی نشان دادند که این مدل با جذر میانگین مربعات خطای 89/23 سانتی‏متر بر روز و میانگین قدر مطلق خطای 50/20 درصد، دقت بالایی در پیش‏بینی هدایت هیدرولیکی اشباع نداشت. استفاده از دو نوع تابع وزن‏دهی تاثیری بر بهبود نتایج مدل IBk نداشتند. مدل IBk نیز با جذر میانگین مربعات خطای 23/31 سانتی‏متر بر روز و میانگین قدر مطلق خطای 24/23 درصد دقت بالایی نداشت.
نتیجه‏گیری: برای برآورد هدایت هیدرولیکی اشباع، درخت تصمیم مدل مناسبتری نسبت به مدل یادگیری برپایه نمونه بود، همچنین این مدل اطلاعاتی از ساختار خاک تحت بررسی نیز به دست داد.

کلیدواژه‌ها


عنوان مقاله [English]

Comparing decision tree and instance-based learning models to estimate soil saturated hydraulic conductivity

نویسندگان [English]

  • Mahnoosh Farzadmehr 1
  • mehdi dastourani 2
  • Abbas Khashei-Siuki 3
1 MSC. Student, Dept. of Water Science and Engineering, Birjand University
3 Faculty member of Birjand University
چکیده [English]

Background and objectives : Soil saturated hydraulic conductivity is one of the most important physical characteristics of soils which affects water movement in soil. Knowledge of this parameter can help to understand and solve environmental problems. But measurement of this parameter by direct laboratory and field methods is hard, time consuming and expensive. Thus there is need to use alternative methods based on conveniently available soil properties to estimate it with less effort, time and cost. Nonparametric methods are new indirect methods to estimate hydraulic properties of soil, including soil saturated hydraulic conductivity (ks). The aim of this study was to use two methods such as M5P decision tree and an IBk instance-based learning method, which is a classifier with k nearest neighbors to estimate ks from conveniently available properties of soil.
Materials and methods: In this study a dataset of 151 soil samples which was collected from a site in Bojnord province was used. Conveniently available soil properties included sand, silt and clay percentage, bulk density, particle density, EC, OC, TNV, saturated moisture and pH. Saturated hydraulic conductivity was measured with the Guelph permeameter. The Gamma test was used to determine important parameters for predicting and the modeling procedure of ks. Then various combinations of parameters of the data set were compared to each other based on their Gamma value, to determine the optimum combination of parameters for modeling ks. Using the optimum combination which had the least Gamma value, the M5P decision tree and the IBk instance-based learning methods were performed. To improve the IBk, two different distance weighting systems were used. Finally, evaluation statistics of each model including R2, RMSE, MAE, and MAPE were calculated.
Results : The optimum combination determined by the Gamma test which was then used for modeling, included sand, silt and clay percent, TNV percent, EC, and bulk density. The tree selected bulk density as the most important discriminative parameter, and constructed 3 linear equations for predicting ks, based on the bulk density value. Evaluation criteria calculated for this model with RMSE= 23.89 cm/d and MAPE= 20.50% it didn’t predict ks accurately. Different weighting systems didn’t improve IBk performance. Also the IBk model with RMSE= 31.23 cm/d and MAPE= 23.24% didn't estimate ks accurately.
Conclusion : The decision tree model performed better than the instance-based learning model to estimate ks. Also the tree showed some information about the structure of the studied soil.

کلیدواژه‌ها [English]

  • : Gamma test
  • decision tree
  • IBK algorithm
  • M5P algorithm