مرور نظاممند کیفیت داده در فرایندکاوی | ||
علوم و فنون مدیریت اطلاعات | ||
مقاله 16، دوره 9، شماره 3، مهر 1402، صفحه 160-103 اصل مقاله (5.05 M) | ||
نوع مقاله: مقاله مروری | ||
شناسه دیجیتال (DOI): 10.22091/stim.2022.7800.1737 | ||
نویسندگان | ||
احمد صالحی* 1؛ محمد اقدسی2؛ توکتم خطیبی3؛ مجید شیخ محمدی4 | ||
1دانشجوی دکتری، گروه مهندسی فناوری اطلاعات، دانشکده مهندسی صنایع و سیستمها، دانشگاه تربیت مدرس، تهران، ایران | ||
2استاد، گروه مدیریت سیستم و بهرهوری، دانشکده مهندسی صنایع و سیستمها، دانشگاه تربیت مدرس، تهران، ایران. | ||
3دانشیار، گروه مهندسی صنایع، دانشکده مهندسی صنایع و سیستمها، دانشگاه تربیت مدرس، تهران، ایران. | ||
4دانشیار، گروه مهندسی سیستمهای اقتصادی و اجتماعی، دانشکده مهندسی صنایع و سیستمها، دانشگاه تربیت مدرس، تهران، ایران. | ||
چکیده | ||
هدف: فرایندکاوی ارتباط میان دو زمینه دادهکاوی و یادگیری ماشین، با رویکردهای مدیریت فرایند کسبوکار را فراهم میسازد. یک فرایند کسبوکار ترتیبی از فعالیتهای مستقل و به هم مرتبط است، که در هنگام انجام هر کدام از فعالیتهای پیشبینی شده، از یک یا چند منبع (شامل زمان، افراد، هزینه و ...) برای تبدیل ورودیها (داده، مواد و ...) به خروجیهای مورد نیاز استفاده میکند. با استفاده از روشهای فرایندکاوی میتوان رفتار حقیقی سازمانها شامل عملکرد افراد، بخشها و منابع را بررسی نمود. نتایج حاصل از فرایندکاوی که به صورت معمول شامل مدلهای فرایند کسبوکار است را میتوان با مستندات و الزامات سازمانها مقایسه کرد. بدینسان امکان بررسی، نظارت و بهبود فرایندها امکانپذیر خواهد شد. مبنای عمل روشهای فرایندکاوی براساس نگارههای رویداد ذخیره شده در سامانههای اطلاعاتی است. استفاده از فرایندکاوی بدون وجود دادههای ورودی باکیفیت، به یافتههایی باورپذیر در مورد فرایندهای کسبوکار یک سازمان منجر نخواهد شد. از اینرو در سالهای گذشته ارزیابی و افزایش کیفیت دادههای ورودی به روشهای فرایندکاوی، مورد توجه پژوهشگران قرار گرفته است. در این راستا، هدف پژوهش حاضر شناخت و گروهبندی مهمترین مشکلات کیفیت داده و بازشناخت رویکردهای ارائه شده برای حل این چالش در فرایندکاوی است. روش: روش مورد استفاده در این پژوهش از نوع مرور نظاممند بوده که با هدف واکاوی همه شواهد معتبر، برای پاسخگویی به سوالات پژوهش مورد استفاده قرار گرفته است. در این مطالعه به بررسی و کاوش 102 مطالعه دانشگاهی در بین سالهای 2007 تا 2021 میلادی پرداخته شده است که شامل پژوهشهای انتشار یافته در همایشها، مجلات و همچنین تعدادی پایاننامه میباشند. بدین منظور از یک روش پژوهش نظاممند سه بخشی استفاده شده است. در بخش اول که شامل تعریف پژوهش بوده، ابتدا زمینه پژوهش تعریف شده و سپس اهداف و پرسشهای پژوهش مشخص شدهاند. در گام نهایی این بخش، دامنه پژوهش تعیین گردیده است. در بخش دوم، روششناسی پژوهش معین شده و معیارهایی برای وارد کردن مطالعات یافت شده به فرایند بررسی نهایی، مشخص شدهاند. سپس این مطالعات از لحاظ ارجاعات مورد بررسی قرار گرفته و در پایان دستهبندی شدهاند. در بخش سوم که به ارزیابی پژوهشهای جمعآوری شده اختصاص یافته است، پژوهشهای نهایی مطالعه شده و سپس بر مبنای کاوش آنها، یافتهها و نتایج حاصل تعیین گردیدهاند. با بررسی جامع پژوهشهای گردآوری شده، دادهها و شواهد مهم استخراج گردیده و جداول و نمودارهای مورد نیاز نیز رسم شدهاند. یافتهها: براساس بررسی پژوهشهای انجام شده، توجه به چالشهای کیفیت داده در فرایندکاوی در سالهای اخیر افزایش یافته است. بیشترین حجم از مطالعات در سالهای 2019 و 2020 میلادی منتشر شدهاند. همچنین مشخص شد که بیشتر مقالات به ترتیب در سه پایگاه علمی Springer، IEEE و Elsevier انتشار یافتهاند. 51 درصد از مطالعات مورد بررسی در همایشها و کنفرانسهای معتبر ارائه شدهاند. 36 درصد از پژوهشها در مجلات معتبر علمی انتشار یافته و 13 درصد از مطالعات از طریق پایاننامهها و گزارشات دانشگاهی انعکاس یافتهاند. برآیندهای حاصل از مطالعه مقالات منتخب نشان داد که 20 مشکل کیفیت داده که میتوانند در دادههای ورودی پدید آیند، در ادبیات مورد کنکاش قرار گرفتهاند. این چالشها در پنج سطح مسیر فرایند، رویداد، مورد، فعالیت و برچسب زمانی طبقهبندی شده و چهار رویکرد بنیادین که برای ارزیابی و حل چالشهای کیفیت داده در فرایندکاوی به کار گرفته شدهاند، مشخص گردیدند که شامل: چارچوبهای ارزیابی کیفیت داده، پیشپردازش، کشف ناهنجاری، و ترمیم میباشند. یافتهها نشان میدهد که روشهای پیشپردازش که هدف آنها حذف رفتارهای آشفته و کم تکرار از دادههای ورودی است، بیشتر از دیگر رویکردها مورد توجه واقع شدهاند. همچنین در سالهای اخیر کشف ناهنجاری و بازسازی رویدادهای گمشده به جستاری جذاب در زمینه فرایندکاوی تبدیل شدهاند. یکی دیگر از نتایج مهم، بررسی مطالعات مربوط به زمینه کیفیت داده در فرایندکاوی، استفاده از حجم وسیعی از رویکردها و روشها برای حل چالشهای کیفیت داده است. بررسیها نشان داد که استفاده از شبکههای پتری، نقش پر رنگی در همه پژوهشهای منتخب به عنوان یک رهیافت ریاضی مد نظر پژوهشگران داشته است. نتیجهگیری: دادههای مورد نیاز روشهای فرایندکاوی میتواند از مکانهای مختلفی به دست آید. یکی از مزایای بزرگ فرایندکاوی این است که مختص به یک نوع سامانه خاص نیست. هر سامانه مبتنی بر گردش کار، فروش بلیط، مدیریت منابع، پایگاه و انبارهای داده، سامانههای قدیمی و حتی دادههایی که به صورت دستی جمعآوری شدهاند، تا زمانی که با استفاده از ویژگیهای شناسه مورد، فعالیت و برچسب زمانی قابل تفکیک باشند، قابل تجزیه و تحلیل هستند. اما در مسائل دنیای واقعی، بیشتر دادهها برای اهداف فرایندکاوی جمعآوری نشدهاند یا مناسب استفاده برای تحلیلهای فرایندکاوی نیستند. به خصوص دادههایی که به صورت دستی ثبت شدهاند یا دادههایی که در بین سامانههای جزیرهای مختلف پراکنده شدهاند، میتوانند حاوی خطا باشند. با وجود تلاشهای مناسب برای بهبود کیفیت دادههای ورودی در فرایندکاوی، همچنان توسعه چارچوبها و روشهای کارآمد با هدف شناسایی، ارزیابی و حل چالشهای کیفیت داده در فرایندهای کسبوکار واقعی که بیشتر اوقات از حجم و پیچیدگی بالایی برخوردارند، پیشنهاد میگردد. نتایج این پژوهش میتواند به عنوان دورنمایی جدید برای پژوهشگران و متخصصان علم داده و تحلیلگران کسبوکار مورد استفاده قرار گیرد. | ||
کلیدواژهها | ||
سامانههای اطلاعاتی؛ مدیریت فرایندهای کسبوکار؛ فرایندکاوی؛ کیفیت داده؛ گزارش رویداد | ||
عنوان مقاله [English] | ||
Data Quality in Process Mining: A Systematic Review | ||
نویسندگان [English] | ||
Ahmad Salehi1؛ Mohammad Aghdasi2؛ Toktam Khatibi3؛ Majid SheikhMohammadI4 | ||
1Ph.D., Student, Department of Information Technology Engineering, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran | ||
2Professor, Department of Systems and Productivity Management. Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran | ||
3Associate Professor, Department of Industrial Engineering, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran | ||
4Associate Professor, Department of Socio-economic Systems, Faculty of Industrial and Systems Engineering, Tarbiat Modares University, Tehran, Iran. | ||
چکیده [English] | ||
Purpose: Process mining connects the disciplines of data mining and machine learning to business process management techniques. A business process is a series of independent and interdependent activities that transform inputs (data, materials, etc.) using one or more resources (such as time, employees, and money). It utilizes the necessary outputs. It is possible to examine the actual behavior of organizations, including the performance of individuals, departments, and resources, using process analysis techniques. The results of the process analysis, which typically includes the organization's business process models, can be compared to the organization's documents and requirements. Thus, processes will be able to be compared, reviewed, monitored, and enhanced. Process mining methods operate based on event logs stored in information systems. Using process mining without high-quality input data will not result in accurate conclusions about an organization's business processes. In recent years, researchers have focused on the evaluation and enhancement of the quality of input data using process mining techniques. The objective of this study is to identify and categorize the most significant data quality issues, as well as recognize the approaches proposed to address this challenge in process mining. Methods: This research employs a systematic review with the intent of analyzing all valid evidence in order to answer the research questions. This study investigates 102 academic studies published between 2007 and 2021, including conference papers, journal articles, and theses. Towards this end, a systematic three-part research methodology was employed. In the first section, which included the research definition, the research field was defined first, followed by the research objectives and queries. In the concluding step of this section, the research's scope is defined. In the second section, the research methodology and entry criteria for the studies discovered during the search for scientific resources are defined. Finally, the identified studies are evaluated in terms of their citations and classified. In the third section, which is devoted to the evaluation of the research, the concluding research of the study is conducted, and then, based on the investigation of the preceding studies, the findings and conclusions are determined. Important data and evidence were extracted from the collated research, allowing for the creation of the necessary tables and graphs. Findings: In recent years, researchers have paid more attention to data quality challenges in the process mining, according to the findings of recent research. In 2019 and 2020, the greatest number of studies will have been published. It was also discovered that the majority of articles were published in three scientific databases, namely Springer, IEEE, and Elsevier. 51% of the studies examined were presented at prestigious conferences. 36% of the studies were published in prestigious scientific journals, while the remaining 13% were represented in dissertations and university reports. The study of the selected articles revealed that 20 data quality issues that can arise in the input data have been investigated in the literature. These challenges have been categorized into five levels: trace, event, case, activity, and timestamps, and four foundational approaches have been identified that have been used to evaluate and resolve data quality challenges in the mining process. 1) data quality frameworks 2) preprocessing 3) anomaly detection 4) repair. Our findings indicate that preprocessing techniques that seek to remove chaotic and infrequent behaviors from the event log have received more attention than other techniques. In addition, these results demonstrate that, in recent years, the discovery of anomalies and the reconstruction of missing events have become popular research topics within the field of process mining. Examining studies related to the field of data quality in the data mining process reveals an abundance of approaches and methods for addressing data quality challenges. Investigations revealed that the use of colorful Petri nets as a mathematical method has been considered in all selected research projects. Conclusions: The data needed for process mining methods can be obtained from various sources. One of the major advantages of process mining is that it is not limited to a specific type of system. Any workflow-based system, such as ticketing, resource management, databases, data warehouses, legacy systems, and even manually collected data, can be analyzed as long as it can be separated using case ID, activity, and timestamp attributes. In real-world scenarios, most data is not collected for process mining purposes or is unsuitable for use in process mining analyses. Especially data that is recorded manually or scattered among various isolated systems can contain errors. Despite the efforts made to improve the quality of input data in the mining process, it is still necessary to develop efficient frameworks and methods to identify, evaluate, and address data quality challenges in real business processes, which are often characterized by high volume and complexity. The results of this research can offer a fresh perspective for researchers, data science specialists, and business analysts. | ||
کلیدواژهها [English] | ||
Information Systems, Business Process Management, Process Mining, Data Quality, Event Log | ||
مراجع | ||
حسینی، س.، مصلح، ع.، حسینی، م. (1397). تحلیل فرآیندهای الکترونیکی با استفاده از تکنیک فرآیندکاوی (مورد مطالعه: فرآیند ترفیع پایه اعضای هیئت علمی دانشگاه خلیج فارس). چشمانداز مدیریت صنعتی، 8(29): 113-135.
خجسته، ف.، کاهانی، م.، بهکمال، ب. (1399) شناسایی رانش مفهومی در نگارههای فرایند کسبوکار با استفاده از یادگیری عمیق. پردازش علائم و دادهها، ۱۷(۴): ۴۸-۳۳.
خدیور، آ.، فیروزی، ف.، نیاکان، ل. (1399). ارزیابی ریسک و بررسی انطباق با قواعد کسب وکار در بیمه با کمک تکنیک فرایندکاوی مطالعه موردی: فرایند خسارت بیمه شخص ثالث. پژوهشنامه بیمه (صنعت بیمه)، 35(2): 65-33.
خوشخوینیلاش، ا.، تمجیدیامچلو، ع.، راد، ر. (1400). تحلیل عملکرد و بهبود فرایندهای ارائه تسهیلات سرمایه در گردش بانک صنعت و معدن با رویکرد فرایندکاوی. مطالعات مدیریت کسب و کار هوشمند، 36(1): 39-70.
شامی زنجانی، م.، نبیبی، ف.، ایران دوست، ش. (1399). ناخدایی دیجیتال: راهنمای تحول سازمانها در عصر دیجیتال. تهران: انتشارات آریانا قلم.
علیزاده، ف.، هادوینژاد، م. (1398). فرایندکاوی نخبهستیزی در سازمان براساس طرح نگاشت تفسیری نظریه دادهبنیاد. پژوهشهای مدیریت منابع سازمانی، 9(1): 165-183.
مصطفایی دولتآباد، خ.، آذر، ع.، مقبل باعرض، ع.، پرویزیان، ک. (1398). ارزیابی فرایندکاوی در کشف مدل فرایندهای نیمه اتوماتیک صنعت بانکداری (مورد مطالعه فرایند صدور ضمانتنامه بانکی). مطالعات مدیریت صنعتی، 17(52): 1-37.
ون در آلست، و. (1394). فرایندکاوی: کشف، تطبیق و بهبود فرایندهای کسبوکار. ترجمه س.ح. سیادت و ر. همتی گشتاسب. تهران: دانشگاه شهید بهشتی. | ||
آمار تعداد مشاهده مقاله: 743 تعداد دریافت فایل اصل مقاله: 253 |