روشی بهمنظور بازیابی اطلاعات از دادههای گمشده با استفاده از تکنیکهای دادهکاوی و الگوریتم ژنتیک | ||
علوم و فنون مدیریت اطلاعات | ||
مقاله 6، دوره 11، شماره 2، شهریور 1404، صفحه 173-196 اصل مقاله (3.96 M) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22091/stim.2024.10668.2092 | ||
نویسندگان | ||
محمد مرادی* 1؛ مجتبی مازوچی2 | ||
1استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه بزرگمهر قائنات، قائنات، ایران. | ||
2استادیار، پژوهشگاه ارتباطات و فناوری اطلاعات، تهران، ایران. | ||
چکیده | ||
چکیده هدف: در ادبیات آماری، اصطلاحات مختلف و غالباً مترادفی برای مفهوم دادههای گمشده وجود دارد. این اصطلاحات عبارتند از دادههای گمشده، دادههای از دست رفته، دادههای ناقص و دادههای بیپاسخ. در آمار، دادههای گمشده یا مقدارهای گمشده زمانی رخ میدهد که هیچ مقدار دادهای برای یک متغیر در یک مشاهده ذخیره نشده باشد. دادهها اغلب در تحقیقات اقتصادی، جامعهشناسی و علوم سیاسی از بین میروند، زیرا دولت یا نهادهای خصوصی ممکن است گزارشهای حساس را ناقص ارائه دهند، یا ممکن است برخی از افراد شرکتکننده در مطالعه از ادامه همکاری انصراف دهند، یا از پاسخ دادن به برخی از سوالات اجتناب کنند، یا محققین، تکنسینها و جمعآوریکننده دادهها ممکن است اشتباهاتی را انجام دهند که منجر به گمشدن دادهها شود. دادههای گمشده میتوانند باعث ایجاد اغتشاش در توزیع متغیر شوند، یعنی میتوانند باعث بیشبرازش یا کمبرازش مدلها شوند. دادههای گمشده میتوانند باعث یک سوگیری (اریبی) در مجموعه داده شوند و بنابراین تجزیه و تحلیل آماری را بهسوی نتایج اریب سوق داده و نهایتاً دستیابی به یک نتیجهگیری مفید از دادههای جمعآوری شده را با مشکل مواجه میسازد و میتوانند منجر به تجزیهوتحلیل نادرست مدل شوند. پیش از این، برای غلبه بر مشکل دادههای گمشده مرسومترین روش، حذف دادههای گمشده بود که منجر به دادههایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری میشد. امروزه با پیشرفتهای علمی در حوزههای گوناگون و پیدایش روشهای توانمند آماری، میتوان پیش از مدلسازی دادههای ناکامل، مقادیر گمشده را با مقادیر مناسب جایگذاری یا برآورد کرد. با توجه به اهمیت ذکر شده موضوع مواجهه و مدیریت دادههای گمشده، پژوهش حاضر با هدف ارائه روشی بهمنظور بهبود دقت بازیابی اطلاعات و دانش از دادههای گمشده انجام شده است. روش: در روش پیشنهادی از تکنیکهای داده کاوی شامل خوشهبندی و رگرسیون، و همچنین از الگوریتمهای هیوریستیک شامل الگوریتم ژنتیک استفاده شده است. در روشهای موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده میشود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشهبندی به منظور شناسایی رکوردهای مشابه استفاده شده است. سپس، برای هر خوشه، میزان دادههای گمشده هر صفت (ستون) از مجموعه داده مورد محاسبه قرار گرفته است. بر اساس میزان داده از دست رفته، از مدل رگرسیون یا از الگوریتم ژنتیک بهمنظور بازیابی اطلاعات از دست رفته استفاده شده است. یافتهها: نتایج پیادهسازی روش پیشنهادی بر روی یک مجموعه داده که حاوی دادههای گمشده به صورت تصادفی بودند نشان داد میزان خطای الگوریتم پیشنهادی برابر 27 درصد است که نسبت به روش استفاده از میانگین، میانه و مد که دارای خطای 56.5 درصد، و روش استفاده از رگرسیون که دارای خطای 34.6 درصد، و روش ماشین بردار پشتیبان (SVM) که دارای خطای 42.1 درصد بود، دقت بالاتری در جانهی دادههای گمشده داشته است. نتیجهگیری: در روشهای موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده میشود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشهبندی به منظور شناسایی رکوردهای مشابه، و محاسبه داده از دست رفته بر اساس رکوردهای مشابه موجود در خوشه، استفاده شده است. همچنین، در الگوریتم پیشنهادی، حذف دادههای پرت، تعیین تعداد خوشههای بهینه و غیره در نظر گرفته شده است. این موضوع سبب خواهد شد، دادههای غیر عادی تاثیری در محاسبه دادههای از دست رفته نداشته باشند. در الگوریتم پیشنهادی، برای هر خوشه، صفاتی (ستونها) که بیش از یک سوم داده از دست رفته دارند حذف میشوند. این موضوع سبب جلوگیری از تاثیر دادههای غیر قابل اطمینان در محاسبه دادههای از دست رفته خواهد شد. همچنین، از مدل رگرسیون در خوشه استفاده میشود که سبب میشود در محاسبه دادههای از دست رفته، فیلدهای مربوط در صفات (ستونهای) دیگر نیز در نظر گرفته شود. استفاده از الگوریتم ژنتیک در روش پیشنهادی، که منجر به استفاده تلفیقی از میانگین، میانه، مد و مدل رگرسیون میشود، سبب دستیابی به نتایج قابل قبولتری خواهد شد. کلیدواژهها: بازیابی اطلاعات، دادههای گمشده، دادهکاوی، الگوریتم ژنتیک، خوشهبندی، مدل رگرسیون. | ||
کلیدواژهها | ||
بازیابی اطلاعات؛ دادههای گمشده؛ دادهکاوی؛ الگوریتم ژنتیک؛ خوشهبندی؛ مدل رگرسیون | ||
عنوان مقاله [English] | ||
A Method to Information Retrieval from Missing Data Using Data Mining Techniques and Genetic Algorithm | ||
نویسندگان [English] | ||
Mohammad Moradi1؛ Mojtaba Mazoochi2 | ||
1Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Bozorgmehr University of Qaenat, Qaenat, Iran. | ||
2Assistant Professor, ICT Research Institute (ITRC), Tehran, Iran. | ||
چکیده [English] | ||
Abstract Purpose: In the statistical literature, there are different and often synonymous terms for the concept of missing data. These terms include missing data, incomplete data, etc. In statistics, missing data or missing values occur when no data values are stored for a variable in an observation. Data are often lost in economic, sociological, and political science research because government or private entities may provide sensitive reports incompletely, or some study participants may refuse to continue cooperating, or may not respond to some questions, or researchers, technicians, and data collectors may make mistakes that result in missing data. Missing data can cause disturbance in the distribution of the variable, that is, it can cause models to overfit or underfit. Missing data can cause a bias in the data set and therefore lead the statistical analysis to biased results and ultimately make it difficult to reach a useful conclusion from the collected data and can lead to incorrect analysis of the model. Previously, to overcome the problem of missing data, the most common method was to remove missing data, which led to low-quality data and, as a result, biased analysis. Today, with scientific advances in various fields and the emergence of powerful statistical methods, it is possible to substitute or estimate missing values with appropriate values before modeling incomplete data. Considering the mentioned importance of the issue of exposure and management of missing data, the present research was done with the aim of providing a method to improve the accuracy of information and knowledge retrieval from missing data. Method: In the proposed method, data mining techniques including clustering and regression, as well as heuristic algorithms including genetic algorithm are used. In the existing methods, the whole data set is used to retrieval the missing data. This issue will cause the consideration of records that are not similar to the record related to the missing data. Therefore, it will lead to wrong results. In the proposed algorithm, clustering is used to identify similar records. Then, for each cluster, the amount of missing data of each attribute (column) of the data set has been calculated. Based on the amount of missing data, a regression model or a genetic algorithm has been used to retrieval the missing data. Findings: The results of the implementation of the proposed method on a data set that contained randomly missing data showed that the error rate of the proposed algorithm is 27%, compared to the method of using the mean, median, and mode, which has an error of 56.5%, and the method of using regression, which has an error of 34.6%, and the support vector machine (SVM) method, which has an error of 42.1%, has a higher accuracy in missing data. Conclusion: In the existing methods, the entire data set is used to retrieval the missing data. This issue will cause the consideration of records that are not similar to the record related to the missing data. Therefore, it will lead to wrong results. In the proposed algorithm, clustering is used to identify similar records, and to calculate missing data based on similar records in the cluster. Also, in the proposed algorithm, outlier data removal, determining the number of optimal clusters, etc. are considered. This issue will cause abnormal data to have no effect on the calculation of missing data. In the proposed algorithm, for each cluster, attributes (columns) that have more than one third of missing data are removed. This issue will prevent the influence of unreliable data in the calculation of missing data. Also, the regression model is used in the cluster, which causes the relevant fields in other attributes (columns) to be considered in the calculation of missing data. The use of genetic algorithm in the proposed method, which leads to the combined use of mean, median, mode and regression model, will lead to more acceptable results. Keywords: Information Retrieval, Missing Data, Data Mining, Genetic Algorithm, Clustering, Regression Model. | ||
کلیدواژهها [English] | ||
Information Retrieval, Missing Data, Data Mining, Genetic Algorithm, Clustering, Regression Model | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 662 تعداد دریافت فایل اصل مقاله: 23 |