ارائه شبکه پیچیده بدون مقیاس با الگوی ترکیب لایهای زبان فارسی | ||
علوم و فنون مدیریت اطلاعات | ||
مقاله 7، دوره 9، شماره 3، مهر 1402، صفحه 215-240 اصل مقاله (4.05 M) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22091/stim.2022.8590.1858 | ||
نویسندگان | ||
علی سرآبادانی1؛ خیراله رهسپارفرد* 2؛ سپیده چهره1 | ||
1دانشجوی دکتری، گروه کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم، قم، ایران. | ||
2استادیار، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم، قم، ایران | ||
چکیده | ||
هدف: پژوهش حاضر روشی را برای بررسی الگوهای ترکیب و ساختار توپولوژیکی زبان فارسی پیشنهاد کرده، و روش بهبودیافته متن فارسی را در قالب گراف شبکه همزمان در چارچوب نظریه شبکه پیچیده بررسی میکند. روش: یک مدل تهی با اندازه مشابه، با توجه به گراف تصادفی اردوش- رینی، برای مقایسه با شبکه فارسی تولید میشود. مقایسه براساس طول مسیر متوسط، ضریب خوشهبندی و سلسله مراتب هر دو شبکه است. از تجزیه و تحلیل این ویژگیهای کلیدی، مشاهده میشود که گراف شبکه فارسی با شبکه تصادفی متفاوت است. طول مسیر متوسط کوچکتر و ضریب خوشهبندی بالا نیز تأثیر مدل جهانی کوچک را در زبان فارسی تأیید میکند. یافتهها: برای اولین بار، متن فارسی با موفقیت به شبکه پیچیده تبدیل شد. یک مجموعه باز و بدون حاشیه بیش از دو میلیون کلمه، با استفاده از رویکرد جنگل تصادفی ساخته شده است. نتیجهگیری: شبکه حاصل طراحی شده، با مدل کیسه بایگرام شامل 3256 گره و 79705 لبه میباشد. علاوهبر این، برخلاف شبکه تصادفی که تنها یک جامعه وجود دارد، 12 اجتماع در شبکه فارسی شناسایی شده است. واقعیتهای آماری نشان میدهد که شبکه فارسی یک شبکه بدون مقیاس با الگوی ترکیب لایهای است. | ||
کلیدواژهها | ||
زبان فارسی؛ پردازش زبان طبیعی؛ شبکه پیچیده؛ مدل جهان کوچک؛ الگوی ترکیب لایهای | ||
عنوان مقاله [English] | ||
Presenting a Scale-Free Complex Network with a Persian Language Layered Composition Pattern | ||
نویسندگان [English] | ||
Ali Sarabadani1؛ Kheirollah Rahsepar Fard2؛ Sepideh Chehreh1 | ||
1P.hD., Student, Department of Computer and Information Technology, Technical and Engineering Faculty, Qom University, Qom, Iran. | ||
2Assistant Professor, Department of Computer Engineering and Information Technology, Faculty of Technology and Engineering, University of Qom, Qom, Iran | ||
چکیده [English] | ||
Purpose: This article proposes a method for investigating the patterns of composition and topological structure of the Persian language. The enhanced method analyzes Persian text by representing it as a simultaneous network graph within the framework of complex network theory. Method: A null model of the same size is generated using the Erdos-Renyi random graph for comparison with the Persian network. The comparison is based on the average path length, clustering coefficient, and hierarchy of both networks. From the analysis of these key features, it can be seen that the Persian network graph differs from the random network. The smaller average path length and high clustering coefficient also confirm the influence of the small-world model in the Persian language. Findings: For the first time, the Persian text was successfully converted into a complex network. An open, unbounded set of over two million words is created using a random forest approach. Conclusion: The resulting network designed using the Bygram bag model contains 3256 nodes and 79705 edges. In addition, unlike the random network where there is only one community, 12 communities have been identified in the Persian network. Statistical evidence indicates that the Persian network is a scale-free network with a layered composition pattern. | ||
کلیدواژهها [English] | ||
Persian Language, Natural Language Processing, Complex Network, Small World Model, Layered Composition Model | ||
مراجع | ||
سجادی، م.ب.، مینایی بیدگلی، ب. (1398). معماری سامانۀ گراف دانش زبان فارسی. پژوهشنامه پردازش و مدیریت اطلاعات، 35(2). | ||
آمار تعداد مشاهده مقاله: 1,224 تعداد دریافت فایل اصل مقاله: 189 |