پیش بینی طرح تقلب در گزارشگری مالی با استفاده از رویکرد یادگیری ماشین در فضای چند کلاسه

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار، گروه حسابداری، دانشکده علوم اجتماعی و اقتصادی، دانشگاه الزهرا، تهران، ایران

2 دانشیار، گروه حسابداری، دانشکده اقتصاد و مدیریت، دانشگاه ارومیه، ارومیه، ایران

چکیده

هدف از انجام پژوهش حاضر بررسی عملکرد الگوهای یادگیری ماشین در پیش بینی طرح های تقلب مورد استفاده در گزارشگری مالی در فضای چند کلاسه با استفاده از مجموعه داده نامتوازن است. از این رو صورت های مالی 134 شرکت‌پذیرفته شده در بورس اوراق بهادار تهران در قلمرو زمانی سال 1387 الی 1399 با استفاده از روش های رگرسیون لجستیک، درخت تصمیم، الگوریتم گرادیان تقویت شده و ماشین بردار پشتیبان مورد تحلیل و بررسی قرار گرفته اند. الگوهای مزبور در محیط پایتون با رویکرد چندکلاسه پیاده سازی و اجرا شدند. معیار ارزیابی عملکرد محاسبه و مقایسه شد. افزون بر این عملکرد الگوهای یادگیری ماشین در تشخیص نوع تقلب در صورت های مالی با رویکرد دوکلاسه و بر اساس مجموعه داده متوازن نیز بررسی گردید. نتایج پژوهش نشان می دهد تفاوت معنادار در عملکرد الگوهای یادگیری ماشین در فضای چند کلاسه وجود دارد و روش ماشین بردار پشتیبان نسبت به سایر روش ها عملکرد بهتری دارد. با تقلیل فضای مسئله به دسته بندی دو کلاسه تفاوت معنادار در عملکرد الگوهای یادگیری ماشین در تشخیص گزارش‌های مالی مشکوک به "بیش نمایی دارایی، کم نمایی بدهی و هزینه"، "بیش نمایی دارایی و کم نمایی هزینه" و "کم نمایی هزینه و بدهی" تایید نشد. با این حال، عملکرد ماشین بردار پشتیبان بر عملکرد روش رگرسیون لجستیک و درخت تصمیم در پیش بینی گزارش‌های مالی مشکوک به "بیش نمایی دارایی و درآمد" ارجح است. پژوهش حاضر با توسعه فضای مسئله با هدف دسته بندی چندکلاسه سعی دارد شکاف تحقیقاتی موجود در قلمرو موضوعی پژوهش را رفع ‌نماید.

کلیدواژه‌ها


عنوان مقاله [English]

Financial Reporting Fraud Scheme Prediction via Machine Learning Approach – Multiclass Classification

نویسندگان [English]

  • Tohid Kazemi 1
  • Parviz Piri 2
1 Assistant Professor, Department of Accounting, Faculty of Social Sciences and Economics, Alzahra University, Tehran, Iran
2 Associate Professor , Department of Accounting, Faculty of and Economics and Management, Urmia University, Urmia, Iran
چکیده [English]

This paper attempts to evaluate the performance of machine learning models in fraudulent financial Reporting schemes prediction via a multi-classification approach and using an unbalanced dataset. Therefore, the financial statements of 134 companies listed on the Tehran Stock Exchange from 2009 to 2021 were investigated by Logistic Regression, Decision Tree, Boosting Algorithms, and Support Vector Machine. Models were programmed with Python and Performance indicators were calculated and compared. Furthermore, the machine learning model’s performance was investigated in binary classification with the balanced dataset to predict each fraud scheme exclusively. According to the results via a multi-classification approach, then the significant difference between machine learning models’ performance was approved. Support Vector Machin was preferred in multiclass problem space with the unbalanced data set. To predict fraud schemes via binary classification, a significant difference between machine learning models’ performance was not approved except to predict the “Overstatement assets and income” scheme. Support Vector Machin was preferred to Logistic Regression and Decision Tree model. The present research attempts to fill the research gap in the research area by developing machine learning models with a multi-classification approach.

کلیدواژه‌ها [English]

  • Fraud Scheme
  • Fraudulent Financial Reporting
  • Machine Learning
  • Multi-Classification
اعتمادی، حسین؛ زلفی، حسن، (1392)، کاربرد رگرسیون لجستیک درشناسایی گزارشگری مالی متقلبانه، فصلنامه دانش حسابرسی، 13(51): 145-163.
آگراوال، چارو، (1398)، متن کاوی به کمک یادگیری ماشین، مهدی اسماعیلی، تهران: آتی نگر.
تاراسی، مجتبی؛ بنی طالبی دهکردی، بهاره؛ زمانی، بهزاد، (1398)، پیش بینی گزارشگری مالی متقلبانه از طریق شبکه عصبی مصنوعی، حسابداری مدیریت، 12(40): 63-79.
خواجوی، شکرالله؛ ابراهیمی،مهرداد، (1396)،ارائة یک رویکرد محاسباتی نوین برای پیش‌بینی تقلب در صورت‌های مالی با استفاده از شیوه‌های خوشه‌بندی و طبقه‌بندی (شواهدی از شرکت‌های پذیرفته‌شده بورس اوراق بهادار تهران)، پیشرفت‌های حسابداری، 9(2): 1-34.
رامنی، مارشال؛ استین بارت، پل، (1387)، سیستم­های اطلاعاتی حسابداری، سید حسین سجادی و سید محسن طباطبایی نژاد، اهواز: انتشارات دانشگاه شهید چمران اهواز.
رضائی، مهدی؛ ناظمی اردکانی، مهدی؛ ناصر صدرآبادی، علیرضا، (1400)، پیش بینی تقلب صورت‌های مالی با استفاده از رویکرد کریسپ(CRISP) ، دانش حسابداری و حسابرسی مدیریت، 10(40): 135-150.
سجادی، سید حسین؛ کاظمی، توحید، (1395)، الگوی جامع گزارشگری مالی متقلبانه در ایران به روش نظریه پردازی زمینه بنیان، پژوهش­های تجربی حسابداری، 6(21): 185-204.
شریفی راد، سمیه؛ نیک نفس، علی اکبر، (1393)، بررسی توابع کرنل الگوریتم SVM در دقت کلاس بندی داده های نامتوازن در بازه­های مختلف نرخ عدم توازن، همایش ملی الکترونیکی دستاوردهای نوین در علوم مهندسی و پایه، اردبیل.
شعبانی، علی؛ علوی، سید محمد،(1392)، ارائه­روشی برای کلاس­بندی اهداف دریایی سوناری­با استفاده­از الگوریتم­های چندکلاسه­ماشین­بردار پشتیبان،  فصلنامه­صنایع الکترونیک، 4(13): 12-19.
صفرزاده، محمد حسین، (1389)، توانایی نسبتهای مالی در کشف تقلب در گزارشگری مالی تحلیل لاجیت، مجله دانش حسابداری، 1(1): 137-163.
صنیعی­آباده،محمد؛ محمودی، سینا؛ طاهرپور، محدثه(1393)، داده­کاوی­کاربردی، تهران: نیاز دانش.
عمادالدین، مریم؛ بدیع، نسرین؛ خفاجه، حمید (1397)، طبقه بندی داده های نامتوازن توسط الگوریتم ماشین بردار پشتیبانی،کنفرانس بین المللی تحقیقات بین رشته ای در مهندسی برق، کامپیوتر، مکانیک و مکاترونیک در ایران و جهان اسلام،کرج.
فرقاندوست حقیقی، کامبیز؛ هاشمی، عباس؛ فروغی دهکردی، امین، (1393)، مطالعه رابطه مدیریت سود و امکان تقلب در صورت­های مالی شرکت­های پذیرفته شده در بورس اوراق بهادار تهران، دانش حسابرسی، 56(14): 47-68.
کلهر، جان، تیرنی، برندن، (1400)، علم داده، امیر رضا تجلی، امیر محمد رمدانی و امیر علی رمدانی، تهران: شرکت چاپ و نشر بازرگانی.
مرادی، مهدی؛ سلیمانی مارشک، مجتبی؛ باقری، مصطفی،(1394)، بررسی عوامل موثر بر به هنگامی گزارشگری مالی با استفاده از تکنیک‌های شبکه‌های عصبی مصنوعی و درخت تصمیم، پژوهش های تجربی حسابداری، 5 (17): 119-137.
ملکی کاکلر، حسن؛ بحری ثالث، جمال؛ جبارزاده کنگرلویی، سعید؛ آشتاب، علی، (1400)، کارایی مدل های آماری و الگوهای یادگیری ماشین در پیش بینی گزارشگری مالی متقلبانه، اقتصاد مالی (اقتصاد مالی و توسعه)، 15(54): 267-292.
ویسی، هادی؛ قایدشرف، حمیدرضا؛ ابراهیمی، مرتضی،(1400)، بهبود کارایی­الگوریتم‌های یادگیری ماشین­در تشخیص­بیماری‌های قلبی­با بهینه‌سازی داده‌ها و ویژگی‌ها، محاسبات نرم، 8(15): 70-85.
هان، ژیاوی، کامبر، پی، میشلین ژان، (1393)، داده کاوی، نسترن حاجی حیدری و سیدبهنام خاکباز، تهران: دانشگاه تهران.
Aggarwal, ch. (2018). Machine Learning for Text. Tehran, Ati Negar. (In Persian).
Assciation of Certified Fraud Examiners. (2022). REPORT TO THE NATIONS ON OCCUPATIONAL FRAUD AND ABUSE. https://legacy.acfe.com/report-to-the-nations/2022.
Beasley, M and et al (2010), Fraudulent Financial Reporting 1998 – 2007, COSO.
Chen, J. Liou, W. Chen, W. (2018), Fraud Detection for Financial Statements of Business Groups. International Journal of Accountion Information Systems. 7(15): 10-26.
Beleites, Claudia. Ute, Neugebauer. Thomas, Bocklitz. Christoph, Krafft. Jürgen, Popp. (2013). Sample size planning for classification models. Analytica Chimica Acta. 760: 25-33.
Craja, p. Kim, A. Lessmann, S. (2020). Deep learning for detecting
financial statement fraud. Decision Support Systems. 139.
Emaddin, M, Badieh, N, Khafajeh, H. (2017). Classification of unbalanced data by support vector machine algorithm, International conference of interdisciplinary research in electrical, computer, mechanical and mechatronic engineering in Iran and the Islamic world, Karaj. (In Persian).
Etemadi, H. & Zolfi, H. (2014). Application of Logistic Regression in Identifying Fraudulent Financial Reporting, Audit Knowledge, 13 (51): 145-163. (In Persian).
Farqandoost Haghighi, K, Hashemi, A, Foroghi Dehkordi, A. (2013). Study of relationship between profit management and the possibility of fraud in the financial statements of companies admitted to the Tehran Stock Exchange, Auditing Knowledge. 14(56): 47- 68. (In Persian).
Grandini, M. Bagli, E. Visani, G. (2020). Metrics for Multi-Class Classification: an Overview. White Paper.https://doi.org/10.48550/arXiv.2008.05756.
Han,J. Kamber,M. pei,J.(2015). Data Mining. Tehran. Tehran University. (In Persian).
Jan, Ch. (2018). An effective financial statements fraud detection model for the sustainable development of financial markets: Evidence from Taiwan. Sustainability 10(2): 513.
Jan, Ch. (2021). Detection of Financial Statement Fraud Using Deep Learning for Sustainable Development of Capital Markets under Information Asymmetry. Sustainability 13(17): 9879.
Kanapickienė, R and Grundienė, Z .(2015). The Model of Fraud Detection in Financial Statements by Means of Financial Ratios , Social and Behavioral Sciences, 213:321-327.
Katsis, D. Christos & et al. (2012). Using Ants to Detect Fraudulent Financial Statements. Journal of Applied Finance & Banking, 2 (6): 73-81.
Kelleher,J.(2020), Data Science. Tehran. Business Publishing Company. (In Persian)
Khajavi, S., Ebrahimi, M. (2017). A Novel Computational Approach to Predict Financial Statements Fraud using Clustering and Classification Techniques: Evidence from Listed Companies in Tehran Stock Exchange. Journal of Accounting Advances, 9(2), 1-34. (In Persian)
Kirkos, S., Spathis, Ch., & Manolopoulos, Y. (2007). Data mining techniques for the detection of fraudulent financial statements. Journal of Expert Systems with Applications, 32:995–1003.
Kranacher,M. Riley,R. Wells, J. (2011). Forensic Accounting and Fraud Examination. New York: John Willy and Sons.
Lin, C., Chiu, A. & et al . (2015). Detecting the financial statement fraud. Journal of Knowledge-Based Systems. 89 (C): 459-470.
Maleki Kakler, H. Bahri Tahal, J, Jabarzadeh Kangarloui, S, Ashtab, A, (2020), The effectiveness of statistical models and machine learning patterns in predicting fraudulent financial reporting, Financial Economics (Financial Economics and Development), 15, 54 , 267-292. (In Persian).
Moradi, M., soleymani mareshk, M., Bagheri, M. (2015). Factors Effective on Timeliness of Financial Reporting: Using Synthetic Neural Networks and Decision Trees Techniques. Empirical Research in Accounting, 5(3), 119-137. doi: 10.22051/jera.2015.640. (In Persian).
Normah. O. Zulaikha, Amirah., J. Malcolm, S., (2017), Predicting Fraudulent Financial Reporting Using Artificial Neural Network. Journal of Financial Crime, 24 (2): 362-387.
Omidi, M, Qingfei, M, Moradinaftchali, V, Piri, M. (2019). The
Efficacy of Predictive Methods in Financial Statement Fraud. Discrete Dynamics
in Nature and Society
. https://doi.org/10.1155/2019/4989140
Pedregosa, F. & et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 12: 2825-2830.
Perols, J .(2011). Financial Statement Fraud Detection: An Analysis of Statistical and Machine Learning Algorithms. A Journal of Practice & Theory, 30 ( 2), 19-50.
Persons, O. (1995). Using financial statement data to identify factors associated with fraudulent financial reporting. Journal of Applied Business Research, 11:38–46.
Ravisankar, P , Ravi, V., & et al (2011), Detection of financial statement fraud and feature selection using data mining techniques, Decision Support Systems, 50(2): 491-500.
Razaie, M., Nazemi Ardakani, M., naser sadrabadi, A. (2021). Predicting financial statement fraud using The CRISP approach. Journal of Management Accounting and Auditing Knowledge, 10(40), 135-150. (In Persian)
Romney, M. & Steinbart, P. (2009). Accounting Information Systems. Ahvaz, Shahid Chamran University. (In Persian).
Sadgali. I, Sael. N & Benabbou. F.(2019). Performance of machine learning techniques in the detection of financial frauds. Procedia Computer Science, 148:45-54.
Safarzadeh, M. (2012). The Ability of Financial Ratios in Detecting Fradulent Financial Reporting: Logit Analysis. Journal of Accounting Knowledge, 1(1), 137-163. (In Persian).
Sajadi, S. & Kazemi, T. (2016). A Comprehensive Pattern of Fraudulent Financial Reporting in Iran, Grounded Theory. Empirical Research in Accounting, 6(3), 185-204. doi: 10.22051/jera.2016.2542. (In Persian)
Saniee Abadeh, M, Mahmoudi, M. & Taherpour, M. (2015). Applied data mining. Tehran. Niaze Danesh. (In Persian).
Shabani,A. & Alavi, S. M. (2014). Presenting a method for marine sonar classification using support vector machine multi-class algorithms. Electronics Industries, 4 (13): 12-19. (In Persian).
Sharifi Rad, S. & Niknafs, A. (2019). Investigating kernel functions of SVM algorithm in the accuracy of imbalanced data classification in different imbalance rate ranges. National electronic conference of new achievements in engineering and basic sciences, Ardabil. (In Persian).
Spathis, C. T. (2002). Detecting false financial statements using published data:Some evidence from Greece. Managerial Auditing Journal, 17: 179-191.
Tarasi, M., Banitalebi, B., Zamani, B. (2019). Forecasting Fraudulent Financial Reporting Through Artificial Neural Network. Management Accounting, 12(40), 63-79. (In Persian).
Veisi, H., Ghaedsharaf, H., Ebrahimi, M. (2021). Improving the Performance of Machine Learning Algorithms for Heart Disease Diagnosis by Optimizing Data and Features. Soft Computing Journal, 8(1), 70-85. (In Persian).
Xiuguo, W. Shengyong, D. (2022). Analysis on Financial Statement Fraud Detection for Chinese Listed Companies Using DL. IEEE Access. 10: 22516-22532.
Zhou, W. , Kapoor, G .(2011), Detecting evolutionary financial statement fraud, Decision Support Systems. 50 (3): 570-575.