Financial Reporting Fraud Scheme Prediction via Machine Learning Approach – Multiclass Classification

Document Type : Research Paper

Authors

1 Assistant Professor, Department of Accounting, Faculty of Social Sciences and Economics, Alzahra University, Tehran, Iran

2 Associate Professor , Department of Accounting, Faculty of and Economics and Management, Urmia University, Urmia, Iran

Abstract

This paper attempts to evaluate the performance of machine learning models in fraudulent financial Reporting schemes prediction via a multi-classification approach and using an unbalanced dataset. Therefore, the financial statements of 134 companies listed on the Tehran Stock Exchange from 2009 to 2021 were investigated by Logistic Regression, Decision Tree, Boosting Algorithms, and Support Vector Machine. Models were programmed with Python and Performance indicators were calculated and compared. Furthermore, the machine learning model’s performance was investigated in binary classification with the balanced dataset to predict each fraud scheme exclusively. According to the results via a multi-classification approach, then the significant difference between machine learning models’ performance was approved. Support Vector Machin was preferred in multiclass problem space with the unbalanced data set. To predict fraud schemes via binary classification, a significant difference between machine learning models’ performance was not approved except to predict the “Overstatement assets and income” scheme. Support Vector Machin was preferred to Logistic Regression and Decision Tree model. The present research attempts to fill the research gap in the research area by developing machine learning models with a multi-classification approach.

Keywords


اعتمادی، حسین؛ زلفی، حسن، (1392)، کاربرد رگرسیون لجستیک درشناسایی گزارشگری مالی متقلبانه، فصلنامه دانش حسابرسی، 13(51): 145-163.
آگراوال، چارو، (1398)، متن کاوی به کمک یادگیری ماشین، مهدی اسماعیلی، تهران: آتی نگر.
تاراسی، مجتبی؛ بنی طالبی دهکردی، بهاره؛ زمانی، بهزاد، (1398)، پیش بینی گزارشگری مالی متقلبانه از طریق شبکه عصبی مصنوعی، حسابداری مدیریت، 12(40): 63-79.
خواجوی، شکرالله؛ ابراهیمی،مهرداد، (1396)،ارائة یک رویکرد محاسباتی نوین برای پیش‌بینی تقلب در صورت‌های مالی با استفاده از شیوه‌های خوشه‌بندی و طبقه‌بندی (شواهدی از شرکت‌های پذیرفته‌شده بورس اوراق بهادار تهران)، پیشرفت‌های حسابداری، 9(2): 1-34.
رامنی، مارشال؛ استین بارت، پل، (1387)، سیستم­های اطلاعاتی حسابداری، سید حسین سجادی و سید محسن طباطبایی نژاد، اهواز: انتشارات دانشگاه شهید چمران اهواز.
رضائی، مهدی؛ ناظمی اردکانی، مهدی؛ ناصر صدرآبادی، علیرضا، (1400)، پیش بینی تقلب صورت‌های مالی با استفاده از رویکرد کریسپ(CRISP) ، دانش حسابداری و حسابرسی مدیریت، 10(40): 135-150.
سجادی، سید حسین؛ کاظمی، توحید، (1395)، الگوی جامع گزارشگری مالی متقلبانه در ایران به روش نظریه پردازی زمینه بنیان، پژوهش­های تجربی حسابداری، 6(21): 185-204.
شریفی راد، سمیه؛ نیک نفس، علی اکبر، (1393)، بررسی توابع کرنل الگوریتم SVM در دقت کلاس بندی داده های نامتوازن در بازه­های مختلف نرخ عدم توازن، همایش ملی الکترونیکی دستاوردهای نوین در علوم مهندسی و پایه، اردبیل.
شعبانی، علی؛ علوی، سید محمد،(1392)، ارائه­روشی برای کلاس­بندی اهداف دریایی سوناری­با استفاده­از الگوریتم­های چندکلاسه­ماشین­بردار پشتیبان،  فصلنامه­صنایع الکترونیک، 4(13): 12-19.
صفرزاده، محمد حسین، (1389)، توانایی نسبتهای مالی در کشف تقلب در گزارشگری مالی تحلیل لاجیت، مجله دانش حسابداری، 1(1): 137-163.
صنیعی­آباده،محمد؛ محمودی، سینا؛ طاهرپور، محدثه(1393)، داده­کاوی­کاربردی، تهران: نیاز دانش.
عمادالدین، مریم؛ بدیع، نسرین؛ خفاجه، حمید (1397)، طبقه بندی داده های نامتوازن توسط الگوریتم ماشین بردار پشتیبانی،کنفرانس بین المللی تحقیقات بین رشته ای در مهندسی برق، کامپیوتر، مکانیک و مکاترونیک در ایران و جهان اسلام،کرج.
فرقاندوست حقیقی، کامبیز؛ هاشمی، عباس؛ فروغی دهکردی، امین، (1393)، مطالعه رابطه مدیریت سود و امکان تقلب در صورت­های مالی شرکت­های پذیرفته شده در بورس اوراق بهادار تهران، دانش حسابرسی، 56(14): 47-68.
کلهر، جان، تیرنی، برندن، (1400)، علم داده، امیر رضا تجلی، امیر محمد رمدانی و امیر علی رمدانی، تهران: شرکت چاپ و نشر بازرگانی.
مرادی، مهدی؛ سلیمانی مارشک، مجتبی؛ باقری، مصطفی،(1394)، بررسی عوامل موثر بر به هنگامی گزارشگری مالی با استفاده از تکنیک‌های شبکه‌های عصبی مصنوعی و درخت تصمیم، پژوهش های تجربی حسابداری، 5 (17): 119-137.
ملکی کاکلر، حسن؛ بحری ثالث، جمال؛ جبارزاده کنگرلویی، سعید؛ آشتاب، علی، (1400)، کارایی مدل های آماری و الگوهای یادگیری ماشین در پیش بینی گزارشگری مالی متقلبانه، اقتصاد مالی (اقتصاد مالی و توسعه)، 15(54): 267-292.
ویسی، هادی؛ قایدشرف، حمیدرضا؛ ابراهیمی، مرتضی،(1400)، بهبود کارایی­الگوریتم‌های یادگیری ماشین­در تشخیص­بیماری‌های قلبی­با بهینه‌سازی داده‌ها و ویژگی‌ها، محاسبات نرم، 8(15): 70-85.
هان، ژیاوی، کامبر، پی، میشلین ژان، (1393)، داده کاوی، نسترن حاجی حیدری و سیدبهنام خاکباز، تهران: دانشگاه تهران.
Aggarwal, ch. (2018). Machine Learning for Text. Tehran, Ati Negar. (In Persian).
Assciation of Certified Fraud Examiners. (2022). REPORT TO THE NATIONS ON OCCUPATIONAL FRAUD AND ABUSE. https://legacy.acfe.com/report-to-the-nations/2022.
Beasley, M and et al (2010), Fraudulent Financial Reporting 1998 – 2007, COSO.
Chen, J. Liou, W. Chen, W. (2018), Fraud Detection for Financial Statements of Business Groups. International Journal of Accountion Information Systems. 7(15): 10-26.
Beleites, Claudia. Ute, Neugebauer. Thomas, Bocklitz. Christoph, Krafft. Jürgen, Popp. (2013). Sample size planning for classification models. Analytica Chimica Acta. 760: 25-33.
Craja, p. Kim, A. Lessmann, S. (2020). Deep learning for detecting
financial statement fraud. Decision Support Systems. 139.
Emaddin, M, Badieh, N, Khafajeh, H. (2017). Classification of unbalanced data by support vector machine algorithm, International conference of interdisciplinary research in electrical, computer, mechanical and mechatronic engineering in Iran and the Islamic world, Karaj. (In Persian).
Etemadi, H. & Zolfi, H. (2014). Application of Logistic Regression in Identifying Fraudulent Financial Reporting, Audit Knowledge, 13 (51): 145-163. (In Persian).
Farqandoost Haghighi, K, Hashemi, A, Foroghi Dehkordi, A. (2013). Study of relationship between profit management and the possibility of fraud in the financial statements of companies admitted to the Tehran Stock Exchange, Auditing Knowledge. 14(56): 47- 68. (In Persian).
Grandini, M. Bagli, E. Visani, G. (2020). Metrics for Multi-Class Classification: an Overview. White Paper.https://doi.org/10.48550/arXiv.2008.05756.
Han,J. Kamber,M. pei,J.(2015). Data Mining. Tehran. Tehran University. (In Persian).
Jan, Ch. (2018). An effective financial statements fraud detection model for the sustainable development of financial markets: Evidence from Taiwan. Sustainability 10(2): 513.
Jan, Ch. (2021). Detection of Financial Statement Fraud Using Deep Learning for Sustainable Development of Capital Markets under Information Asymmetry. Sustainability 13(17): 9879.
Kanapickienė, R and Grundienė, Z .(2015). The Model of Fraud Detection in Financial Statements by Means of Financial Ratios , Social and Behavioral Sciences, 213:321-327.
Katsis, D. Christos & et al. (2012). Using Ants to Detect Fraudulent Financial Statements. Journal of Applied Finance & Banking, 2 (6): 73-81.
Kelleher,J.(2020), Data Science. Tehran. Business Publishing Company. (In Persian)
Khajavi, S., Ebrahimi, M. (2017). A Novel Computational Approach to Predict Financial Statements Fraud using Clustering and Classification Techniques: Evidence from Listed Companies in Tehran Stock Exchange. Journal of Accounting Advances, 9(2), 1-34. (In Persian)
Kirkos, S., Spathis, Ch., & Manolopoulos, Y. (2007). Data mining techniques for the detection of fraudulent financial statements. Journal of Expert Systems with Applications, 32:995–1003.
Kranacher,M. Riley,R. Wells, J. (2011). Forensic Accounting and Fraud Examination. New York: John Willy and Sons.
Lin, C., Chiu, A. & et al . (2015). Detecting the financial statement fraud. Journal of Knowledge-Based Systems. 89 (C): 459-470.
Maleki Kakler, H. Bahri Tahal, J, Jabarzadeh Kangarloui, S, Ashtab, A, (2020), The effectiveness of statistical models and machine learning patterns in predicting fraudulent financial reporting, Financial Economics (Financial Economics and Development), 15, 54 , 267-292. (In Persian).
Moradi, M., soleymani mareshk, M., Bagheri, M. (2015). Factors Effective on Timeliness of Financial Reporting: Using Synthetic Neural Networks and Decision Trees Techniques. Empirical Research in Accounting, 5(3), 119-137. doi: 10.22051/jera.2015.640. (In Persian).
Normah. O. Zulaikha, Amirah., J. Malcolm, S., (2017), Predicting Fraudulent Financial Reporting Using Artificial Neural Network. Journal of Financial Crime, 24 (2): 362-387.
Omidi, M, Qingfei, M, Moradinaftchali, V, Piri, M. (2019). The
Efficacy of Predictive Methods in Financial Statement Fraud. Discrete Dynamics
in Nature and Society
. https://doi.org/10.1155/2019/4989140
Pedregosa, F. & et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 12: 2825-2830.
Perols, J .(2011). Financial Statement Fraud Detection: An Analysis of Statistical and Machine Learning Algorithms. A Journal of Practice & Theory, 30 ( 2), 19-50.
Persons, O. (1995). Using financial statement data to identify factors associated with fraudulent financial reporting. Journal of Applied Business Research, 11:38–46.
Ravisankar, P , Ravi, V., & et al (2011), Detection of financial statement fraud and feature selection using data mining techniques, Decision Support Systems, 50(2): 491-500.
Razaie, M., Nazemi Ardakani, M., naser sadrabadi, A. (2021). Predicting financial statement fraud using The CRISP approach. Journal of Management Accounting and Auditing Knowledge, 10(40), 135-150. (In Persian)
Romney, M. & Steinbart, P. (2009). Accounting Information Systems. Ahvaz, Shahid Chamran University. (In Persian).
Sadgali. I, Sael. N & Benabbou. F.(2019). Performance of machine learning techniques in the detection of financial frauds. Procedia Computer Science, 148:45-54.
Safarzadeh, M. (2012). The Ability of Financial Ratios in Detecting Fradulent Financial Reporting: Logit Analysis. Journal of Accounting Knowledge, 1(1), 137-163. (In Persian).
Sajadi, S. & Kazemi, T. (2016). A Comprehensive Pattern of Fraudulent Financial Reporting in Iran, Grounded Theory. Empirical Research in Accounting, 6(3), 185-204. doi: 10.22051/jera.2016.2542. (In Persian)
Saniee Abadeh, M, Mahmoudi, M. & Taherpour, M. (2015). Applied data mining. Tehran. Niaze Danesh. (In Persian).
Shabani,A. & Alavi, S. M. (2014). Presenting a method for marine sonar classification using support vector machine multi-class algorithms. Electronics Industries, 4 (13): 12-19. (In Persian).
Sharifi Rad, S. & Niknafs, A. (2019). Investigating kernel functions of SVM algorithm in the accuracy of imbalanced data classification in different imbalance rate ranges. National electronic conference of new achievements in engineering and basic sciences, Ardabil. (In Persian).
Spathis, C. T. (2002). Detecting false financial statements using published data:Some evidence from Greece. Managerial Auditing Journal, 17: 179-191.
Tarasi, M., Banitalebi, B., Zamani, B. (2019). Forecasting Fraudulent Financial Reporting Through Artificial Neural Network. Management Accounting, 12(40), 63-79. (In Persian).
Veisi, H., Ghaedsharaf, H., Ebrahimi, M. (2021). Improving the Performance of Machine Learning Algorithms for Heart Disease Diagnosis by Optimizing Data and Features. Soft Computing Journal, 8(1), 70-85. (In Persian).
Xiuguo, W. Shengyong, D. (2022). Analysis on Financial Statement Fraud Detection for Chinese Listed Companies Using DL. IEEE Access. 10: 22516-22532.
Zhou, W. , Kapoor, G .(2011), Detecting evolutionary financial statement fraud, Decision Support Systems. 50 (3): 570-575.