به‌کارگیری نظریه بازی همکارانه - یادگیری تقویتی برای توزیع عادلانه مزایای ناشی از همکاری میان ذینفعان حوضه آبریز

نوع مقاله : مقاله کامل علمی پژوهشی

نویسندگان

1 گروه مهندسی عمران، دانشگاه سیستان و بلوچستان، زاهدان، ایران.

2 گروه مهندسی عمران دانشگاه سیستان و بلوچستان

3 گروه مهندسی عمران، دانشگاه سیستان و بلوچستان

4 دانشکده مهندسی دانشگاه وارویک، کاونتری، انگلستان

چکیده

سابقه و هدف: در حوضه‌های آبریز با ذی‌نفعان گوناگون، تضمین توزیع عادلانه منابع آب و مزایای حاصل از آن‌، جنبه‌ای اساسی از مدیریت یکپارچه منابع آب است. این مسئله زمانی پیچیده‌تر می‌شود که یکی از طرفین، باوجودآنکه منبع اصلی حوضه آبریز است، به دلیل نابرابری در توزیع ثروت، کمتر از دیگری توسعه‌یافته باشد. در چنین مواردی، دستیابی به توزیع عادلانه منافع بین ذی‌نفعان بسیار مهم است، به‌ویژه هنگامی که طرفین پتانسیل همکاری پایدار را داشته باشند که این امر می‌تواند منجر به منافع جمعی بیشتری شود. نظریه بازی‌های همکارانه (CGT) چارچوب مناسبی را برای پرداختن به تخصیص عادلانه منافع در چنین محیط‌های رقابتی فراهم می‌کند. بااین‌حال، تعیین مقادیر منافع در تابع هدف، با درنظرگرفتن ائتلاف‌های گوناگون ذی‌نفعان، می‌تواند بسیار چالش‌برانگیز باشد. یادگیری تقویتی (RL) ابزاری ارزشمند برای تعیین مزایای سطوح مختلف همکاری شامل همکاری کامل، همکاری جزئی و عدم همکاری بین ذی‌نفعان فراهم می‌کند. این مطالعه از رویکرد نظریه بازی‌ها همکارانه - یادگیری تقویتی (CGT-RL) برای بررسی دو حوضه آبریز مجاور کارون شمالی و زاینده‌رود استفاده می‌کند. سه استان ذی‌نفع اصلی در این دو حوضه، شامل استان چهارمحال بختیاری، اصفهان و خوزستان، در مورد تخصیص آب و نیز توزیع (تقسیم) عادلانه و کارآمد مزایای حاصل از مصرف آن اختلاف‌نظر دارند که این اختلافات در چند سال گذشته افزایش‌یافته است. در این مقاله برای نخستین‌بار از روش CGT-RL برای پرداختن به این چالش دنیای واقعی در یک سیستم آبی بزرگ استفاده شد. هدف از این پژوهش استفاده از چارچوب مذکور برای تخصیص عادلانه و کارای مزایای ناشی از مصارف آب در حالت ایجاد ائتلاف بزرگ و همکاری کامل میان این سه ذی‌نفع است. این چارچوب پیشنهادی، RL و CGT را ترکیب می‌کند تا به دو ضعف اصلی رویکردهای غالب در پژوهش‌های پیشین برای به حداکثر رساندن و توزیع مزایا در سیستم‌های منابع آب دارای چند ذی‌نفع بپردازد. نخستین ضعف کاربرد روش‌های بهینه‌سازی مرسوم، بیشینه‌سازی کل مزایای سیستم بدون توجه به نحوه توزیع (تقسیم) آن بین ذی‌نفعان است. این روش‌ها فرض می‌کنند که بین ذی‌نفعان یک سیستم همکاری کاملی وجود دارد و پویایی تصمیم‌گیری افراد و منفعت هر یک از آن‌ها را نادیده می‌گیرد. راه‌حل‌های بازی‌های همکارانه می‌تواند باعث فراهم‌شدن انگیزه‌های قوی در تصمیم‌گیران فردی و نیز تسهیل همکاری جهت دستیابی به راه‌حل بهینه گردد. بااین‌حال، به‌دست‌آوردن اطلاعات موردنیاز برای استفاده از آن‌ها بسیار چالش‌برانگیز و از نظر محاسباتی پیچیده است. این منجر به دومین ضعف کاربردهای نظریه بازی در مطالعات قبلی منابع آب شده که فرضیات ساده‌کننده‌ای را در مورد مزایای دست‌یافتنی طرفین تحت سطوح مختلف همکاری ایجاد می‌کردند. به‌طورکلی هدف پژوهش حاضر توانمندسازی ذی‌نفعان گوناگون از طریق ایجاد ائتلاف و همکاری گروهی (عقلانیت جمعی) برای دستیابی به منافع فردی (عقلانیت فردی) بیشتر است.
مواد و روش‌ها: بر اساس روش CGT-RL ابتدا مزایای قابل‌دستیابی تحت هر ائتلاف ممکن، شامل ائتلاف بزرگ (همکاری کامل)، ائتلاف‌های کوچک (همکاری جزئی) و عدم تشکیل ائتلاف (عدم همکاری)، با به‌کارگیری الگوریتم یادگیری Q به دست می‌آید. در مرحله دوم، از روش‌های حل بازی مشارکتی شامل چانه‌زنی نش - هارسانی، ارزش شپلی و نکلئولوس برای توزیع عادلانه مزایای حاصل از همکاری کامل بین ذینفعان، با درنظرگرفتن مفاهیم مختلف انصاف، استفاده می‌شود. ذی‌نفعان (بازیکنان) شامل استان‌های اصفهان، چهارمحال بختیاری و خوزستان هستند. سطوح مختلف همکاری شامل همکاری کامل، همکاری جزئی و عدم همکاری است. در همکاری کامل، سیستم توسط یک عامل مدیریت می‌شود که سعی در بهینه‌سازی تابع هدف برای کل سیستم دارد. در همکاری جزئی، سیستم یک سیستم دوعاملی است که یک عامل مسئول ائتلاف دو استان همکار و دیگری مسئول بهینه‌سازی تابع هدف برای استان غیر همکار است. در عدم همکاری، سیستم سه عامل دارد که هر کدام به طور جداگانه مسئول یک استان هستند و هر عامل سعی می‌کند تابع هدف را برای استانی که مسئول آن است، به حداکثر برساند. تابع هدف یک تابع خطی شامل میزان برداشت آب از رودخانه‌ها توسط هر استان و میانگین بهره‌وری اقتصادی ماهانه استان‌ها به‌ازای هر مترمکعب برداشت آب است. داده‌های ورودی برای بهینه‌سازی شامل میانگین بهره‌وری اقتصادی ماهانه هر استان به‌ازای هر مترمکعب برداشت آب، حجم برداشت ماهانه آب توسط استان‌ها، میانگین حجم تخلیه رودخانه در هر استان، حداکثر و حداقل مقادیر برداشت و ذخیره سالانه آب توسط هر استان است.
یافته‌ها: یافته‌های پژوهش نشان می‌دهد که در صورت همکاری کامل میان ذی‌نفعان (ایجاد ائتلاف بزرگ)، منافع طرفین در مقایسه با سایر سطوح همکاری افزایش می‌یابد. در حالت عدم همکاری یعنی با ادامه وضع موجود سهم هر استان از مزایای حاصل از برداشت و مصارف آب رودخانه‌های کارون شمالی و زاینده‌رود (متوسط درآمد سالانه کل) برای اصفهان 72/478765، خوزستان 33/421791 و برای چهارمحال بختیاری 39/156881 میلیارد ریال برآورد می‌گردد. در صورت همکاری کامل و ایجاد ائتلاف بین تمام استان‌های ذینفع مقادیر درآمد سالانه محاسبه‌شده با استفاده از روش بهینه سازی کل سیستم (الگوریتم یادگیری Q) برای استان‌های اصفهان، خوزستان و چهارمحال بختیاری به‌ترتیب 17/1641776، 94/503201 و 8/179054 میلیارد ریال افزایش می‌یابد. این مقادیر 54 درصد بیشتر از حالت عدم همکاری (وضع موجود) و حدود 30 تا 40 درصد بیشتر از حالت همکاری جزئی (ایجاد ائتلاف‌های کوچک) است. بازتوزیع درآمدهای حاصل از همکاری کامل بین ذینفعان بر اساس راه‌حل چانه‌زنی نش - هارسانی برای سه استان اصفهان، خوزستان و چهارمحال بختیاری به ترتیب 88/900963، 49/843989 و 55/579079 میلیارد ریال است. بر اساس روش ارزش شپلی، این مقادیر برای سه استان اصفهان، خوزستان و چهارمحال بختیاری به ترتیب 48/1006962، 57/798112 و 86/518957 میلیارد ریال و در روش نوکلولئوس، درآمد‌های توزیع‌یافته میان سه استان اصفهان، چهارمحال بختیاری و خوزستان به ترتیب 26/886626، 96/847094 و 69/590311 میلیارد ریال در سال است. اصفهان (ESF) با داشتن درآمد بیشتر به دلیل مزیت صنعتی بودن و توسعه یافتگی، بالاترین سهم از بازتوزیع درآمد (حدود ۳۸-۴۳٪) را به خود اختصاص می‌دهد. چهارمحال بختیاری (CHB) تحت روش نوکلولئوس، ثبات بیشتری کسب می‌کند، زیرا این روش تخصیص خود را کمی افزایش می‌دهد تا نارضایتی را کاهش دهد. سهم خوزستان (KHZ) در تمام روش‌ها از بازتوزیع درآمد بهینه سازی کل سیستم ۳۴-۳۶٪ است.
نتیجه‌گیری: رویکرد CGT-RL برای توزیع درآمد حاصل از برداشت و مصرف آب از رودخانه‌های کارون شمالی و زاینده‌رود بین سه استان اصلی ذی‌نفع به کار گرفته شد. نتایج این مطالعه نشان می‌دهد که با ظرفیت محاسباتی و امکان پیاده‌سازی الگوریتم یادگیری Q، روش CGT-RL می‌تواند مسائل بسیار پیچیده‌تری را در مدت‌زمان معقولی حل کند. ترکیب RL و CGT فرصتی را برای بررسی سیاست‌های هماهنگ فراهم می‌کند که علاوه بر به حداکثر رساندن منافع کل سیستم، تخصیص عادلانه و کارای منافع را نیز در نظر می‌گیرد. طبق نتایج، ذی‌نفعان می‌توانند با همکاری کامل و هماهنگی سیاست‌های بهره‌برداری، منافع خود را از برداشت مشارکتی آب از رودخانه‌های زاینده‌رود و کارون شمالی افزایش دهند. یافته‌های پژوهش نشان می‌دهد که در صورت همکاری کامل بین استان‌ها، درآمد طرفین نسبت به سایر سطوح همکاری افزایش می‌یابد که می‌توان با استفاده از روش‌های حل بازی‌های همکارانه این مزایای افزایشی را میان آنها تقسیم نمود.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Applying Reinforcement Learning- Cooperative Game Theory (CGT-RL) in the fair distribution of profits from cooperation among basin stakeholders

نویسندگان [English]

  • Shahin Salimpour Naghani 1
  • Seyed Arman Hashemi Monfared, 2
  • Abbas Ali Ghaderi 3
  • Mehdi Azhdary Moghaddam 2
  • Soroush Abolfathi 4
1 Department of Civil Engineering, University of Sistan and Bluchestan, Zahedan, Iran.
2 Department of Civil Engineering, University of Sistan & Baluchestan
3 Department of Civil Engineering, University of Sistan & Baluchestan
4 School of Engineering, University of Warwick, Coventry, CV4 7AL
چکیده [English]

Background and objectives: In basins with diverse stakeholders, ensuring the equitable distribution of water resources and the benefits derived from them is a fundamental aspect of integrated water resources management. This issue becomes more complex when one party, despite being the primary resource of the basin, is less developed than the other due to inequality in wealth distribution. In such cases, achieving an equitable distribution of benefits among stakeholders is crucial, especially when the parties have the potential for sustainable cooperation, which can lead to greater collective benefits. Cooperative game theory (CGT) provides a suitable framework to address the equitable allocation of benefits in such competitive environments. However, determining the values of benefits in the objective function, considering different coalitions of stakeholders, can be very challenging. Reinforcement learning (RL) provides a valuable tool to determine the benefits of various levels of cooperation, including full cooperation, partial cooperation, and no cooperation among stakeholders. This study uses a Cooperative Game Theory-Reinforcement Learning (CGT-RL) approach to examine two adjacent watersheds, the North Karoon and Zayandeh Rood. The three main stakeholder provinces in these two basins, namely Chaharmahal Bakhtiari, Isfahan, and Khuzestan, have disagreements about water allocation and the fair and efficient distribution of benefits from its use, which have increased in the past few years. In this paper, the CGT-RL method is used for the first time to address this real-world challenge in a large water system. This study aims to use the aforementioned framework to fairly and efficiently distribute benefits (revenue) from water use in the case of a grand coalition and full cooperation among these three stakeholders. The proposed framework combines RL and CGT to address two major weaknesses of the approaches prevalent in previous research on maximizing and distributing benefits in multi-stakeholder water resource systems. The first weakness of the application of conventional optimization methods is the maximization of the total system benefit regardless of how it is distributed among the stakeholders. These methods assume that there is perfect cooperation among stakeholders and ignore the dynamics of individual decision-making and the benefits of each of them. Cooperative game solutions can provide strong incentives for individual decision-makers and facilitate cooperation to achieve the optimal solution. However, obtaining the information required to use them is very challenging and computationally complex. This leads to the second weakness of the applications of game theory in previous water resources studies, which made simplifying assumptions about the benefits achievable by the parties under different levels of cooperation. Overall, the goal of the present study is to empower various stakeholders through creating coalitions and group cooperation (collective rationality) to achieve greater individual benefits (individual rationality).
Materials and methods: Based on the CGT-RL method, first, the benefits achievable under each possible coalition, including the grand coalition (full cooperation), partial coalitions, and single coalition (non-cooperation), are obtained by applying the Q-Learning algorithm. In the second step, cooperative game solving methods, including Nash-Harsanyi bargaining, Shapley value, and Nucleolus, are used to fairly distribute the benefits resulting from full cooperation among stakeholders, considering various concepts of fairness. The stakeholders (players) include the provinces of Esfahan (ESF), Chaharmahal Bakhtiari (CHB), and Khuzestan (KHZ). Their different levels of cooperation include full cooperation, partial cooperation, and no cooperation. In full cooperation, the system is managed by a single agent that tries to optimize the objective function. In partial cooperation, the system is a two-agent system, one agent is responsible for the coalition of two provinces, and the other is responsible for optimizing the objective function for a single province. In non-cooperation, the system has three agents, each of which is separately responsible for a province, and each agent tries to maximize the objective function for the province that it is in charge of. The objective function is a linear function including the amount of water withdrawal from rivers by each province and the average monthly income of the provinces per unit of water consumed. The input data for optimization include the average monthly income of each province per cubic meter of water withdrawal, the volume of monthly water withdrawal by the provinces (MCM), the average volume of river discharge in each province (MCM), and the maximum and minimum values of annual water withdrawal and storage by each province (MCM).
Results: The research findings indicate that, in the case of full cooperation among stakeholders (i.e., establishing a grand coalition), the benefits for both parties increase compared to other levels of cooperation. In the case of no cooperation, that is, with the continuation of the current situation, the share of each province from the benefits derived from the withdrawal and use of water from the North Karoon and Zayandeh Rood rivers (average total annual income) is estimated to be 478765.72 billion rials for Isfahan, 421791.33 billion rials for Khuzestan, and 156881.39 billion rials for Chaharmahal Bakhtiari. In the case of full cooperation and establishing a coalition between all the beneficiary provinces, the annual revenues calculated using the whole system optimization method (Q learning algorithm) for Isfahan, Khuzestan, and Chaharmahal Bakhtiari provinces increase to 1641776.17 billion rials, 503201.94 billion rials, and 179054.8 billion rials, respectively. These values are 54 percent higher than the non-cooperation case and about 30 to 40 percent higher than the partial cooperation case (creation of small coalitions). The redistribution of income from full cooperation among stakeholders based on the Nash-Harsani bargaining solution for the three provinces of Isfahan, Khuzestan, and Chaharmahal Bakhtiari is 900963.88, 843989.49, and 579079.55 billion rials, respectively. Based on the Shapley value method, these values for the three provinces of Isfahan, Khuzestan, and Chaharmahal Bakhtiari are 1006962.48, 798112.57, and 518957.86 billion rials, respectively, and in the nucleolus method, the income distributed among the three provinces of Isfahan, Chaharmahal Bakhtiari, and Khuzestan is 886626.26, 847094.96, and 590311.69 billion rials per year, respectively. Esfahan (ESF), having a higher income due to the advantage of industrialization and development, has the highest share of income redistribution (about 38-43%). Chaharmahal Bakhtiari (CHB) gains more stability under the nucleolus method, as this method slightly increases its allocation to reduce dissatisfaction. Khuzestan (KHZ) has a share of income redistribution of the whole system optimization in all methods of 34-36%.
Conclusion: This study applied a novel framework to develop collaborative solutions to increase the efficiency of multi-stage, multi-agent water management problems in a practical manner to address a real-world issue. The proposed framework combines RL and CGT. The proposed CGT-RL approach was applied to distribute water benefits from the North Karoon and Zayandeh Rood basins among three stakeholder provinces. The results of this study show that with the computational capacity and the possibility of implementing the Q-learning algorithm, the CGT-RL method can solve much more complex problems in a reasonable time. The combination of RL and CGT provides an opportunity to explore coordinated policies that, in addition to maximizing the benefits of the entire system, also consider the fair allocation of benefits. According to the results, stakeholders can increase their benefits (revenue) from the Zayandeh Rood and North Karoon rivers by fully cooperating and coordinating exploitation policies. The results demonstrate that in the case of full cooperation among stakeholders, the benefits of parties increase relative to other levels of cooperation, as partial and non-cooperation.

کلیدواژه‌ها [English]

  • Q-Learning algorithm
  • Nash-Harsani
  • Shapley value
  • North Karoon Basin
  • Zayandehrood Basin