版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、欺詐檢測在許多行業(yè)是比較實(shí)用的研究對象,例如銀行、金融領(lǐng)域、保險(xiǎn)、政府機(jī)關(guān)和執(zhí)法部門等等。最近幾年欺詐事件急劇增加,使欺詐檢測比以往更加重要。盡管在受影響的一些機(jī)構(gòu)做了很多這方面努力,但每年因欺詐損失數(shù)以億計(jì)。尤其是虛假財(cái)務(wù)報(bào)表,不僅對個(gè)人投資者,也對全球經(jīng)濟(jì)的整體穩(wěn)定性帶來不利影響。
雖然在定義方面稍有差異,但欺詐財(cái)務(wù)報(bào)表是由注冊欺詐協(xié)會定義,注冊欺詐“蓄意,刻意,虛假陳述或遺漏事實(shí),以及會計(jì)數(shù)據(jù)引起的誤導(dǎo),當(dāng)所有這些信
2、息符合,會造成讀者改變或更改他(她)的判斷或決定。”在實(shí)際情況中,欺詐財(cái)務(wù)報(bào)表包含:
(1)財(cái)務(wù)記錄篡改
(2)故意遺漏大事、交易、賬目和財(cái)政報(bào)表中需要準(zhǔn)備的其他重要信息,或?yàn)E用會計(jì)原則、政策,以及濫用用于測量、確認(rèn)、報(bào)告的程序,以及泄露商業(yè)交易。
這篇論文中使用數(shù)據(jù)挖掘技術(shù)幫助確認(rèn)欺詐性財(cái)政報(bào)表,以及使用決策樹、神經(jīng)網(wǎng)絡(luò)和貝葉斯信念網(wǎng)絡(luò)減少內(nèi)部欺詐。這些技術(shù)是有利的,尤其是當(dāng)有新的欺詐財(cái)政報(bào)表
3、方法適應(yīng)這些檢測技術(shù)。
“用不同的模型使用相同數(shù)據(jù)樣本對這三種技術(shù)進(jìn)行了比較,結(jié)果顯示BBN技術(shù)優(yōu)于其他兩種模式,而能達(dá)到更好的分類精度。”
本文也探討了一種涉及多領(lǐng)域知識的自適應(yīng)框架(基于響應(yīng)曲面模型),來檢測欺詐財(cái)務(wù)報(bào)表以及如何減少內(nèi)部欺詐。最后,即本文建議,在如今財(cái)政欺詐發(fā)展的時(shí)代,在一些專業(yè)領(lǐng)域知識,計(jì)算機(jī)輔助自動(dòng)欺詐檢測機(jī)制將會非常有效和高效。
三種模型分別基于不同的方法建立。首先,決
4、策樹模型是利用Sipina調(diào)查版軟件建立的。該模型建立置信度水平為0.05。本文使用整個(gè)樣本作為訓(xùn)練設(shè)置。
該模型是以訓(xùn)練樣本為測試并設(shè)法恰當(dāng)?shù)胤殖?3例(一般性能達(dá)到96%)。更確切地說,決策樹分類為所有非欺詐例和35138欺詐例(92%)。算法使用變量Z分?jǐn)?shù)作為第一個(gè)分析法。35/38欺詐企業(yè)提出一個(gè)相當(dāng)?shù)偷腪分?jǐn)?shù)值(z分?jǐn)?shù)<1.49)。因?yàn)锳ltman認(rèn)為Z分?jǐn)?shù)值1.81作為一個(gè)切斷點(diǎn)來規(guī)定美國生產(chǎn)公司的財(cái)政危機(jī)(A
5、ltman,2001),可以推斷出樣本中財(cái)政危機(jī)的公司包含試圖篡改財(cái)政報(bào)表。作為第二個(gè)水平分析法,使用了兩個(gè)與盈利有關(guān)的變量(NPTA和EBIT)。高Z分?jǐn)?shù)的非欺詐企業(yè)表明具有高盈利能力,而低Z分?jǐn)?shù)的欺詐企業(yè)表明具有低盈利能力。在第二個(gè)實(shí)驗(yàn)中,我們構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型,使用分類軟件中商標(biāo)注冊為7的非線性網(wǎng)絡(luò)來構(gòu)建一個(gè)多層感知前饋網(wǎng)絡(luò)。在測試一些替代性設(shè)計(jì)和執(zhí)行初步訓(xùn)練后,選擇了一個(gè)包含5個(gè)隱藏節(jié)點(diǎn)的隱藏層的拓?fù)洹?br> 當(dāng)使用全部
6、的樣本對所選擇的網(wǎng)絡(luò)進(jìn)行測試,這個(gè)網(wǎng)絡(luò)能100%地成功分類這些實(shí)例。但是,軟件沒有對突觸權(quán)重的連接提供透明的接口,因此我們不能對每一個(gè)輸入變量的重要性進(jìn)行評估。在第三個(gè)試驗(yàn)中,我們開發(fā)貝葉斯信任度網(wǎng)絡(luò)。我們使用BN Power Predictor軟件。這個(gè)軟件能從數(shù)據(jù)中獲得分類器。這個(gè)能執(zhí)行的算法是基于條件無關(guān)的測試的,并且不需要結(jié)點(diǎn)的排序(Cheng& Greiner,2001)。由于軟件的限制,我們使用數(shù)值離散化辦法。在測試不同的離
7、散方法(相等的深度,相等的寬度)后,我們選擇被監(jiān)管的離散方法。與其他的離散方法不同,基于熵的被監(jiān)管離散方法利用了類的信息。這樣就使得被定義的間隔信息可以幫助提高分類的準(zhǔn)確率(Han& Camber,2000)。對貝葉斯信任度網(wǎng)絡(luò)里進(jìn)行測試,我們把全部的樣本作為訓(xùn)練集,這個(gè)網(wǎng)絡(luò)能分來72個(gè)實(shí)例(達(dá)到了95%的正確率)。特別的是,該網(wǎng)絡(luò)能正確分出37個(gè)偽實(shí)例(97%)與35個(gè)非偽實(shí)例(92%)。這個(gè)貝葉斯信仟度網(wǎng)絡(luò)能用于更加廣泛的方面,例如
8、針對財(cái)務(wù)報(bào)表的篡改。在網(wǎng)絡(luò)中,網(wǎng)絡(luò)騙子強(qiáng)烈依賴輸入的變量Z-SCORE,DEBTEQ,NPTA,SALTA and WCTA。上述的每一個(gè)變量表現(xiàn)公司經(jīng)濟(jì)數(shù)據(jù)的一個(gè)方面。Z-SCORE指的是財(cái)政窘迫,DEBTEQ指的是影響,NPTA指利潤,SALTA指銷售情況,WCTA指解決辦法。因此這個(gè)信任度網(wǎng)絡(luò)能記錄金融數(shù)據(jù)與篡改數(shù)據(jù)之間的依賴關(guān)系,能記錄一個(gè)公司的巨大金融狀況的數(shù)據(jù)。這個(gè)結(jié)果指出了NN模型能有效識別FFS公司與non-FFS公司,
9、僅次于BBN與ID3模型。使用訓(xùn)練集來評估模型的性能會有傾向性的問題。在很多情況下,這個(gè)模型傾向于去記憶樣本而不是學(xué)習(xí)。為了消除這樣的一個(gè)傾向問題,評估上述模型的性能要相對于之前未被發(fā)現(xiàn)的樣式?,F(xiàn)在有一些方法用于模型的認(rèn)證,相當(dāng)于把樣本切分成訓(xùn)練的與單獨(dú)拿出的,每10個(gè)折疊的進(jìn)行認(rèn)證就有一個(gè)要拿出的。雖然我們使用的3個(gè)軟件包有認(rèn)證能力,但是不可能做到跟蹤一個(gè)常見的認(rèn)證程序而不是3個(gè)軟件包的方法學(xué)與數(shù)據(jù)。因此,我們只好周期性地拆分樣本,創(chuàng)
10、建訓(xùn)練集與驗(yàn)證集。我們選擇跟蹤10次折疊的交錯(cuò)驗(yàn)證方法。在10次折疊的交叉核實(shí)中,樣本分割成10次折疊。在一個(gè)分層的方法里,每個(gè)折疊包含了相同數(shù)量的偽實(shí)例與非偽實(shí)例。模型保留9個(gè)折疊,通過使用要被拿出的折疊進(jìn)行測試。最后,計(jì)算出平均性能。正如所期待的,驗(yàn)證集的爭取率要低于訓(xùn)練集。然而這三個(gè)模型的性能差別很大。決策樹在訓(xùn)練的正確分類的概率為96%,在驗(yàn)證樣本的分類準(zhǔn)確率大大低于它。在所有的樣本中,這個(gè)模型正確分類73.6%,75%的偽實(shí)例
11、與72.5%的非偽實(shí)例。
在訓(xùn)練集上有100%性能的神經(jīng)網(wǎng)絡(luò)模型,能正確分類80%的驗(yàn)證集,82.5%的偽實(shí)例與77.5%的非偽實(shí)例。
最后,貝葉斯信任度網(wǎng)絡(luò)模型在訓(xùn)練集上有較低的精確度,正確分類91.7%的偽實(shí)例,88.9%的非偽實(shí)例與90.3%的驗(yàn)證集。在一個(gè)對模型性能的對比評估中,我們得到這樣的結(jié)論,貝葉斯信任度網(wǎng)絡(luò)要?jiǎng)龠^另外兩個(gè)模型,并有突出的分類的精確度。神經(jīng)網(wǎng)絡(luò)達(dá)到一個(gè)令人滿意的高性能。最后,決策
12、樹的性能是非常低的。在評估一個(gè)模型的性能的時(shí)候,另外一個(gè)重要的考慮因素是類型1與類型Ⅱ的錯(cuò)誤率。類型Ⅰ的錯(cuò)誤是一個(gè)騙子公司被認(rèn)為是可信的。類型Ⅱ的錯(cuò)誤時(shí)一個(gè)非騙子公司被認(rèn)為是騙子。類型Ⅰ與類型Ⅱ錯(cuò)誤有不同的開銷。分類一個(gè)騙子公司與可信公司的過程中,會導(dǎo)致錯(cuò)誤的決定,就會造成嚴(yán)重的經(jīng)濟(jì)損失。把一個(gè)可信公司錯(cuò)誤的分類會在時(shí)間開銷上造成額外的偵查。雖然每個(gè)模型都希望減少類型Ⅰ與類型Ⅱ的錯(cuò)誤率,但是某一個(gè)模型都會傾向于更大程度上減少某一種類型錯(cuò)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- r data mining implement data mining techniques through practical use cases and real world datasets
- handbook of research on advanced data mining techniques and applications for bus
- Data Mining Techniques applied in SRM:Case of a Business Company.pdf
- financial early warning system and the application of data mining research of risk prediction
- The consequences of fraudulent financial reporting .pdf
- The consequences of fraudulent financial reporting .pdf
- Financial early warning system and the application of data mining research of risk prediction.pdf
- Financial early warning system and the application of data mining research of risk prediction.pdf
- 2018版-r programming fundamentals deal with data using various modeling techniques
- financial statement analysis and the prediction of stock returns
- a new data mining method based on multidimensional—data flow
- discuss the application of data mining in bioinformatics
- Behaviors Modeling and Analysis of Big Data from Web Apps Using Machine Learning and Deep Rnn Techniques.pdf
- DETECTING MALICIOUS WEBSITES USING CLIENT HONEYPOTS.pdf
- research on service capability based on data mining
- uncertain data mining a new research direction
- Data-mining Strategies for Personalized Medicine.pdf
- Uncertain Data Mining A New Research Direction.pdf
- Uncertain Data Mining A New Research Direction.pdf
- Knowledge Discovery using sequential pattern mining.pdf
評論
0/150
提交評論