數據挖掘外文翻譯(中文)--一種用于零售銀行客戶流失分析的數據挖掘方法_第1頁
已閱讀1頁,還剩18頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  Applied intelligence, 2005, 22,47-60. </p><p><b>  中文10700字</b></p><p>  一種用于零售銀行客戶流失分析的數據挖掘方法</p><p><b>  作者:胡曉華</b></p><p>  作者單位:美

2、國費城卓克索大學信息科學學院</p><p>  摘 要 在金融服務業(yè)中解除管制,和新技術的廣泛運用在金融市場上增加了競爭優(yōu)勢。每一個金融服務公司的經營策略的關鍵是保留現有客戶,和挖掘新的潛在客戶。數據挖掘技術在這些方面發(fā)揮了重要的作用。在本文中,我們采用數據挖掘方法對零售銀行客戶流失進行分析。我們討論了具有挑戰(zhàn)性的問題,如傾向性數據、數據按時序展開、字段遺漏檢測等,以及一項零售銀行損失分析數據挖掘任務的步驟

3、。我們使用枚舉法作為損失分析的適當方法,用枚舉法比較了決策樹,選擇條件下的貝葉斯網絡,神經網絡和上述分類的集成的數據挖掘模型。一些有趣的調查結果被報道。而我們的研究結果表明,數據挖掘技術在零售業(yè)銀行中的有效性。</p><p>  關鍵詞 數據挖掘 分類方法 損失分析</p><p><b>  簡介</b></p><p>  在金融服務業(yè)

4、中解除管制,和新技術的廣泛運用在金融市場上增加了競爭優(yōu)勢。每一個金融服務公司經營策略的關鍵是保留現有客戶,和挖掘新的潛在客戶。數據挖掘技術在這些方面中發(fā)揮了重要的作用。數據挖掘是一個結合商業(yè)知識,機器學習方法,工具和大量相關的準確信息的反復過程,使隱藏在組織中的企業(yè)數據的非直觀見解被發(fā)現。這個技術可以改善現有的進程,發(fā)現趨勢和幫助制定公司的客戶和員工的關系政策。在金融領域,數據挖掘技術已成功地被應用。</p><p&

5、gt;  ?誰可能成為下兩個月的流失客戶?</p><p>  ?誰可能變成你的盈利客戶?</p><p>  ?你的盈利客戶經濟行為是什么?</p><p>  ?什么產品的不同部分可能被購買?</p><p>  ?不同的群體的價值觀是什么?</p><p>  ?不同部分的特征是什么和每個部分在個人利益中扮演的角

6、色是什么?</p><p>  在本論文中,我們關注的是應用數據挖掘技術來幫助分析零售銀行損失分析。損失分析的目的是確定一組高流失率的客戶,然后公司可以控制市場活動來改變所需方向的行為(改變他們的行為,降低流失率)。</p><p>  在直接營銷活動的數據挖掘中,每一個目標客戶是無利可圖的,無效的,這個概念很容易被理解。因為有限的營銷預算和員工,所以數據挖掘模型過去常常被用來排列客戶組成

7、,且只有一定比例的客戶通過郵件,電話等聯(lián)系。如果建立更完善的數據挖掘模型和定義正確的目標,該公司便就能夠接觸潛在的高密度客戶流失的集中群體。下面描述了銀行流失分析的數據挖掘過程的步驟:</p><p>  1.商業(yè)問題的定義:在客戶保留的領域中商業(yè)問題的明確說明</p><p>  2.數據審查和初步篩選</p><p>  3.在現有的數據方面問題的說明</

8、p><p>  4.數據集成,編目和格式化</p><p>  5.數據預處理:(a)數據清洗,數據展開和定義時間敏感度的變量定義,定義目標變量,(b)統(tǒng)計分析,(C)敏感度分析,(d)漏泄檢測,(e)特征選擇</p><p>  6.通過分類模型建立數據模型:決策樹,神經網絡,促進樸素貝葉斯網絡,自然選擇條件下的貝葉斯網絡,分類器的集成</p><

9、p>  7.結果表達與分析:用數據挖掘模型來預測當前用戶中可能的流失客戶</p><p>  8.調度展示:定義可能成為流失客戶的對象(稱為正式)</p><p>  這篇論文描述了一種用來分析零售銀行客戶流失的數據挖掘方法。目的是確認規(guī)則、趨向、模式和能夠被作為潛在的流失指標的群體和提前確定潛在流失客戶,因此銀行能夠采取積極主動地預防措施來降低流失指數。本論文安排如下:首先我們在第

10、二部分定義客戶保留區(qū)域上的問題和商業(yè)問題的說明,接著我們在第三部分討論數據選擇、數據審查和初步篩選,然后是數據集成、數據目錄的編輯和數據格式化、數據演變和時間敏感度變量的定義。接著我們討論敏感度分析、遺漏偵測和特征選擇。在第四部分我們通過決策樹,神經網絡和貝葉斯網絡和自然選擇條件下的貝葉斯網絡和上述四種分類器的集成來描述數據模型。在第五部分,我們主要討論調查結果、字段檢測結果。最后,我們在第六部分得出結論。</p><

11、;p><b>  2. 商業(yè)問題</b></p><p>  2.1. 主要問題的解釋</p><p>  我們的客戶是世界十大零售銀行之一,這些銀行根據不同的客戶提供各種種類的金融產品。本論文中討論的產品屬于一項特定的貸款服務。目前超過750,000的客戶正在使用這項仍有150億美元的資金未解決的產品,這項產品已經有了顯著的的高流失率。由于高流失率,稅收受到了

12、挑戰(zhàn):每個月呼叫中心會受到超過4500個要求注銷銀行賬戶的電話;另外接近1200條記錄屬于緩慢流失(連續(xù)超過12個月以上處于不平衡狀態(tài)),同時非法賬戶對于產品收益率構成了一系列的挑戰(zhàn),由于指數、貸款限額以及傭金的影響,每月零售銀行的流失指數總計達到5700。另外,很多客戶只在優(yōu)惠價時才使用該產品,過期后便作廢。每一個賬戶都有客戶管理項目成本和客戶獲得成本,郵遞需要在每個客戶上花1美元,電話營銷需要在每個客戶上花5美元。而刺激成本(比如降

13、低利率來留住客戶)能夠被考慮,主要取決于你提供了什么樣的產品。我們的客戶沒有主動性的或者反應性。在大多數情況下,盡管有人認為價格下降并不是僅有的或者最好的策略,但是這還是一種主要的方法。我們以上描述的情況已經使得我們客戶的商務和技術部門的管理者們開始審視采取相關知識為基礎通過一系列有效的客戶分類、客戶概</p><p><b>  2.2. 問題定義</b></p><p

14、>  在這個部分描述了在基于現有的數據,時間周期以及目標字段如何理解和定義問題的步驟。在此步驟上,所有數據挖掘中,最冗長和最費力的部分是數據選擇、數據準備、數據結構[1, 6, 7]。在生產線上有五種流失因素:</p><p>  ?緩慢流失客戶:指到凍結帳戶時才還款的客戶。自主性流失因素有多種行為表現而在此處可以被全面地理解。</p><p>  ?快速流失客戶:指快速還款后立即通

15、過電話或寫信銷戶的客戶。</p><p>  ?交叉銷售:指的是可能購買現有貸款客戶提供的諸如人生保險之類的替代產品的客戶。不斷增加的聯(lián)系被認為是減少客戶流失的一種手段。</p><p>  ?高風險:可能變成高風險的客戶。</p><p>  ?客戶挖掘:可能放棄我們的產品而選擇我們競爭對手產品的客戶。這種情況不是單一的個例:一個客戶能夠在貸款周期中顯示這類情況的

16、子集。此時,他/她能夠通過有效的被刺激手段和策略影響來改變他們的行為。鑒于此,這些客戶的態(tài)度可以被量化表現在狀態(tài)圖表1上。</p><p>  表1表達了客戶管理的優(yōu)勢以及預測問題。1.確定緩慢客戶流失。2.交叉銷售產品。3.確定高風險客戶。4.確定客戶可能被競爭對手挖掘。</p><p>  如上圖中所示,一個客戶通過他的行為,能夠按組別屬性在每個狀態(tài)被定義時,在活躍和流失之間活動?;A

17、上圖,我們決定聚焦到兩個流失問題上:</p><p> ?。?)利用過去連續(xù)4個月所開的賬戶為數據,在提前60天的情況下,預測特定客戶是否會自主通過電話或寫信注銷她/他的賬戶。</p><p> ?。?)利用過去連續(xù)4個月所開的賬戶為數據,在提前60天情況下,預測一個特定客戶是否可能會將他的賬戶轉移到競爭對手手上。而賬戶不一定仍保持開通。模型的發(fā)展和隨后的活動焦點將會聚集到提高產品線業(yè)務及

18、改善該項產品客戶維持度和客戶活躍度的問題上:</p><p>  問題1:保留現有客戶</p><p>  為了劃分不同客戶層這個問題需要如下規(guī)則來制定模型:</p><p>  ?在連續(xù)30-60天的基礎上建立一個能夠預測損失的客戶模型。</p><p>  ?識別出最具盈利可能性/最值得擁有的客戶群體的特征以便開發(fā)一種好的策略使他們對我們

19、的持續(xù)支持得到保證以及獲得更多擁有同樣優(yōu)質客戶特征的客戶。</p><p>  問題2:客戶激勵政策</p><p>  區(qū)分出從潛在客戶和非營利性客戶變成盈利客戶的群體的特征。一旦找到了這些因素,我們能借助這些因素來發(fā)展風險、維護和機會等各項策略來促成客戶可盈利化的成功轉變。</p><p><b>  數據選擇</b></p>

20、<p>  像所有的數據挖掘活動一樣,正確的數量和超過重要時間段里的相關數據的區(qū)分對于模型的進展是很關鍵的[1, 8, 9]。鑒于此,且與這個領域的專家合作,我們采集了經過識別和初步審查后所需的數據源。表1概括了確定的數據源和它們的預期功能。</p><p>  表 一 :描述確定的(潛在的)相關數據來源。圖表描述了數據挖掘來源以及它們的概述以及相關的流失模型。</p><p>

21、;  DDS數據倉庫:信用卡數據倉庫包含約200個產品的具體字段。起源于不同的點(寫入數據,外部數據庫,分數等),數據根據一系列可操作的規(guī)則(即在不變化字段的情況下減小了字段的大?。┻M行壓縮。這個倉庫包含6個月的數據,且在每月的基礎上交替循環(huán)。在當前的情況下,這個周期包含4個月的歷史信息。信用卡數據倉庫是保留數據建模問題的主要來源。</p><p>  第三方數據:一組相關的人口和信用局的信息。數據可從外部供應商

22、得到,例如,丹麥公司。連接DDS數據庫的數據提供額外的預測數據。</p><p>  分割文件:基于客戶的分割的方案設立賬戶相關的分割值,結合風險,盈利和外部潛在能力。該段數據結合DDS數據提取與模型結果覆蓋。</p><p>  支付數據庫:數據庫存儲了所有的進程。數據庫能夠分類檢查。這樣的數據庫允許集允許日期的檢測,平衡和開戶者和用來檢查識別客戶挖掘賬戶。</p><

23、;p>  3.1數據預處理目標</p><p>  數據預處理包括一系列必要活動來創(chuàng)建一個壓縮文件,如下所示:</p><p>  ?反映數據隨時間而變化。</p><p>  ?識別和移除統(tǒng)計中不重要的字段。</p><p>  ?定義與介紹“目標”字段。</p><p>  ?允許第二領域的預處理和統(tǒng)計分析,

24、這個將通過三個步驟來完成,在下面的章節(jié)詳細介紹。</p><p>  ?通過時間順序來展開。</p><p><b>  ?目標值的定義。</b></p><p>  ?第一階段的統(tǒng)計分析。</p><p>  3.1.1. 確定數據周期</p><p>  在給定有效數據以及時間周期后,我們決定

25、選取一項狀態(tài)為“開通”的賬戶的記錄的子集開始數據選擇,,例子是選取周期在12/2001–3/2002間的合法客戶。另外為了對比,我們還獲取在11/2001之后狀態(tài)是“保密”或者是“注銷”的賬戶數據。這將使得我們能夠檢測出流失客戶的特征以及能夠形成自愿型流失客戶?;谶@個考慮,45814條隨機記錄被選擇,每一項代表一個賬戶,其中42547個是公開的,剩下的3267個是自2001年以來是保密的。獲得的數據被放入一個臨時的表格中,連接到所有產

26、生的包含每個賬戶、賬戶的狀態(tài)、每月的和過去四個月的相關表格。這意味著我們能夠重新建立從2001年11月開始的所有字段而不僅僅是2002年3月的數據。</p><p>  3.1.2. 通過時間順序展開</p><p>  在數據源中的每個賬戶中每月都有一列。在操作中,歷史客戶數據被劃分為流失客戶和保留客戶。為了數據節(jié)省空間,每個月我們都核對先前一個月的數據。如果沒有變化,我們就不增加列,有

27、效開始日期的值保持和最后一次修改時的數據(即新的一列被插入)保持一致。如果屬性發(fā)生了改變,一個新的有效起始日期列就會被相應的增加。因此一些賬戶記錄會少于標準月的數量,因為有些月份沒有活動被記錄下來。如,如果一個賬戶直到2001年12月都沒有變化,最后一列將會成為當前月的一列,被用來推算當前的這個月的結論。在理解這些的基礎后,創(chuàng)建客戶流失模型。</p><p>  鑒于數據文件中的數據記錄是每月每戶一列,我們需要使

28、用過去四個月的歷史數據來建立一個預測模型。為了表示數據隨時間和季節(jié)性的行為而變化,我們需把過去獨立的四個月的數據結合在一個數據文件里,而在數據文件里每個賬戶有一個包含過去四個月金融信息的列。使用的數據格式,要求隱性數據成為顯形,而時序被分為單獨的字段。為了完成這一點,我們將變量分成靜態(tài)變量和時間敏感度的變量[1]。靜態(tài)變量不隨時間而變化。</p><p>  例子如下:賬號,母姓,住址和愛好。時間敏感值每月而變化

29、且為了找到季節(jié)性/時間相關性行為保留在過去4個月的不同值。時間敏感值被分配到一個時間前綴(TO意味著最近一個月,T1意味著前二個月,T2意味著三個月前,T3意味著四個月前)。因此,例如,在2001年12月到2002年3月當前賬戶余額反映在表二中定義。</p><p>  鑒于此,下一個任務是包含了在“干凈”的格式化文件生成額外的文件以及將它們添加到結果文件。時間序列數據顯示于表三,數據值設置從250增加到870。

30、</p><p>  表二:以四個月為周期的時間敏感度DDS數據庫。周期與命名:上個月(2002.3),TO當前賬戶余額;一個月前(2002.2),T1當前賬戶余額;二個月前(2002.1),T2當前賬戶余額;三個月前(2001.12),T3當前賬戶余額。</p><p>  表三:按時間順序展開的數據集。</p><p>  3.1.3. 目標值的定義</p

31、><p>  像很多真實的數據挖掘應用程序一樣,通常在數據倉庫中是不會直接定義數據挖掘目標字段的,因此,定義合適的商業(yè)領域研究的目標字段也是數據挖掘工作的一部分。在商業(yè)領域專家的幫助下,我們在一些存在的數據中定義數據目標值,并籍此定義目標變量的值,換言之,變量能夠測量流失客戶,因此定義會計賬戶中價值分析(1為客戶流失;0為保留客戶)。定義如下:</p><p>  1. 狀態(tài)代碼 (CRD S

32、T CD)</p><p>  2. 狀態(tài)更改日期 (CRD STATUS CHANGEDATE)</p><p>  3. 注銷原因代碼 (CRD CLS REA CD)</p><p>  公式定義為:CRD ST CD=C(注銷);狀態(tài)更改日期在2001年12月和2002年3月31日之間;CRD CLS REA CD(注銷原因代碼)在[0 1 23 25 26

33、 28 29 30 35 36 40 41 42 80 81 82 83 84 97 98 31 32 33 34]之間。</p><p>  自主客戶流失的原因代碼是(客戶需求):“0 1 23 25 26 28 29 30 35 36 40 41 42”,自主客戶流失的原因代碼(客戶需求)的相關價格是:“31 32 33 34”。根據定義,在四個月內所有的客戶的平均折損率為2.2%。</p>&

34、lt;p>  3.1.4. 第一步驟:數據統(tǒng)計分析</p><p>  在時序數據集中的870個字段中,一個重要的部分是常量、空字段。在早期階段中,把他們過濾掉能大大減少數據挖掘的時間以及提高模型準確性。據統(tǒng)計分析,序列中的第一步,是為了獲得對數據質量的初步理解:未知字段的數量,相關的頻率,早期的指示,平均值和目標數據的分布。在最初的字段分辨中,一個單值在所有記錄中出現超過99.95%或者為空將被認為是無價

35、值的,然后從屬性集中移除字段。這些字段將在數據和源數據文件中被移除,來確保從建模步驟中被移除,因此,減少了計算的時間。</p><p>  3.2. 數據預模型化</p><p>  數據預模型化階段是下一步模型文件生成的關鍵步驟,這一步有三個主要階段構成:</p><p>  (1)對低關聯(lián)度過濾字段的敏感度分析以此來確定字段目標和檢測數據是否遺漏。</p&

36、gt;<p> ?。?)字段簡練以此來增加高關聯(lián)度字段成為更緊湊的文件。</p><p> ?。?)所有平衡和不平衡文件的生成設置了對測試的整枝、測試、對于結果的迭代證明以及模型的精煉。</p><p>  3.2.1. 字段敏感度分析和字段修減</p><p>  字段敏感度分析用來測試每一個屬性對于模型處理的“促進作用”。我們使用一個粗略集的字段選

37、擇算法[4]。我們的算法為每一個字段生成一個價值,考慮到字段之間的聯(lián)系/相關性,從全部字段里選出字段的最小子集。而從另一方面來說,如果一個字段的值過高,它將被認為是潛在的遺漏[10]。遺漏是目標“遺漏”信息的字段。例如,一個有賬戶注銷價值的字段會使客戶流失信息遺漏,也會混亂模型效果。我們發(fā)現當一些流失立即被發(fā)現時,很多時候他們被包含在與目標關系不明顯的商業(yè)規(guī)則里。因此,確立一個字段是否是遺漏點的最好方法是討論相似情況,對數據圖表和對商業(yè)

38、問題的調查。一些我們從數據集中區(qū)分出來的遺漏的字段是破產數值、風險等級、破產理由代碼、使用卡的時間次數、賣的次數、關閉賬戶里原因代碼等等。在很多循環(huán)中,字段名和字段值是不會經常直接表現出他們功能,而是需要解釋。從另一方面來說,預測失誤的字段最后組成了模型的潛力預測。因此,字段的值是恒定的(即標準零誤差),而優(yōu)點的值就是零。為了提高數據發(fā)掘的速度和產生更完美的模型,這些字段將被移除。在流失字段分析后,我們將對數據集運用到新的特征選擇算法[

39、4],來鑒定出與目標特征字段關聯(lián)度</p><p>  3.2.2. 產生文件集</p><p>  我們的樣本文件中包含45814個記錄,而每月的流失指數是0.55%,過去四個月累積的流失指數大概是在2.2%。為了在這樣一個高度不對稱的數據集中建立一個好的模型,我們需要來建立一個更加平衡的流失客戶和保留客戶在數據集中的描述。理由是在原始數據集中,我們有相當高的保留客戶比例和極少的流失客戶

40、比例(97.8% VS 2.2%),而一個學術模型能夠通過經常預測每個客戶是否是未流失客戶來達到較高的準確性。顯然,這樣一個高準確率的模型對流失分析是沒什么用的[10, 11]。我們建立了一個包含938個流失客戶的隨機樣本文件,然后我們在其中增加了足夠多的未流失客戶來使得我們的數據集達到兩方50%-50%(客戶流失VS保留客戶)的比例,然后文件將被劃分為平衡的文件、行列文件和測試文件就像原始文件一樣(換言之,是不平衡文件),用來說明注釋

41、文件。平衡的一系列文件中50%的記錄包含目標值,換言之VA ACCTS=1。而平衡測試、原始測試、原始旁釋文件組成了大約每個目標的1/6。在前面3.1.3的定義中,原始文件的目標表現出所有被審查文件的2.2%。這些文件被數據挖掘用來下一步的統(tǒng)計分析,數據挖掘和聚類分析工</p><p>  4. 數據挖掘模型建立步驟</p><p>  4.1. 評價準則:枚舉法</p>&

42、lt;p>  就像 [4,5,11,12]中所說的那樣,預測精度被用來評估挖掘算法,這不是一個合適的評價準則,例如流失分析。主要的理由如下:</p><p>  1.分類錯誤(錯誤的正面和錯誤的負面)被平等對待的,但是在流失分析時錯誤的正面和錯誤的負面因素會產生不同的影響和后果,因此他們需要被區(qū)別對待。</p><p>  2.準確度被用來衡量所學算法在數據集上的表現,流失分析的目的

43、不是預測每個客戶的行為,而是找到流失幾率很大的客戶的一個好的子集。流失分析是高度不平衡而且高噪音的,因此很難建立一個準確的模型。</p><p>  在流失分析中,我們的目的是使用歷史信息來建立一個有效的數據挖掘模型,然后用使用數據挖掘模型來預測可能性最大的流失客戶,接下來采取預先措施來防止客戶流失。因此,學術算法需要被劃分入一個可信賴的度量,如:一個可能的評估因素和確定的因素(也被稱為流失分析的分值)。分值能使

44、得我們?yōu)橥茝V中的市場和目標市場的客戶來排序。替代預測準確率的枚舉法可被用來作為評價標準。像[9]中所指出的那樣,如果數據挖掘模型足夠好,我們應該在列表頂端找到一個高集中度的流失客戶群體,這個更高的客戶流失比例可以用枚舉法衡量,來查看基于這個模型的目標比隨機的有多好??偟膩碚f,枚舉法能夠通過累積性的目標完成到p%來被計算。如,分類表中前10%的數據可能包含了35%的客戶流失,這個模型枚舉了35/10=3.5的例子。一個枚舉反映了測試中在測

45、試樣本被分級后測試響應者的重新劃分。學術算法將所有從最有可能回應到最不可能回應的測試樣本排位后,我們把已經排序的列表分為一些十分位數(前10%在經驗中是最精良的部分:我們在每個百分比中用枚舉法測試),接著我們觀察最初回應者在這些十分位數里如何分布。枚舉法在模型得分排序表的基礎上衡量目標子集已經</p><p>  4.2. 基于不同算法的數據挖掘模型</p><p>  我們對于最大字段模

46、型感興趣。在我們的分析中,一個好的模型對產生客戶流失的模型列表的頂端那些可能成為流失客戶的重點關注。我們需要使用的算法是為了排列測試樣而產生數值。算法,例如:自然條件下的貝葉斯,決策樹,神經網絡來滿足我們的需求。我們需要使用四種不同的數據挖掘算法來進行分析,并對上述4種算法的分類進行集成[4]:</p><p>  1.促進樸素貝葉斯網絡(BNB)</p><p>  2.神經網絡(人工神

47、經網絡預測:一種商業(yè)性神經網絡,來自人工神經網絡公司)</p><p><b>  3.決策樹</b></p><p>  4.自然選擇條件下的貝葉斯(SNB)</p><p>  5.對上訴四種分類的集成[4]</p><p>  4.2. 1促進自然條件下的貝葉斯網絡(BNB)</p><p>

48、;  樸素貝葉斯網絡數據庫挖掘方法結合了促進和樸素貝葉斯的學習[6,13-15]。促進是一種連續(xù)兩個階段的一般算法,這種算法改進了兩類學習算法的準確性。在第一階段中,所有的測試樣本權重相同且兩類學習算法用來獲得一個分類器。在第二階段,第一分類器中錯誤分類的測試樣本變得權重不同。在第三階段中,第二分類器中的錯誤分類的樣本也變得權重不同,第三分類器形成。促進過程可以重復所需的步驟。應用于樸素貝葉斯的學習,通常進行5-20個步驟是有益的,這里

49、所描述的結果只使用了五個步驟。</p><p>  像其他軟件一樣,樸素貝葉斯網絡確定了一個目標樣本的哪些屬性石最具預測價值的。不像大多數其它軟件,樸素貝葉斯的值(或數值范圍)的屬性石最預測性的。例如,樸素貝葉斯自動識別T1的CRD賬目格式化的屬性值2是一個重要預測。根據所提供的資料,此值2表示“賬戶一直活躍但目前不活躍”。也不想其他軟件,樸素貝葉斯網絡評估這個已經報道的預測的統(tǒng)計意義。一個預測的意義取決于它的字

50、段(即預期效益)和它的覆蓋率(即一些應用例子)。樸素貝葉斯網絡因為地覆蓋率和低字段,所以可能被認為是虛假的預測。</p><p>  樸素貝葉斯網絡的字段值在圖解2中顯示。</p><p>  Figure 2. Boosted Na¨?ve Bayesian model lift chart.</p><p>  圖解2:枚舉柱狀圖:促進貝葉斯模型的圖解

51、。橫軸為賬戶百分比,縱軸為流失客戶數量。</p><p><b>  結果如上圖所示。</b></p><p><b>  利益的可變因素</b></p><p>  自然條件下的貝葉斯網絡發(fā)現14個最重要的正向預測目標類。前4個屬性將在下面按次序被展開。每一個預測的屬性都有確定值(或數值范圍)。值“Z”在原始數據集意味著

52、零。“計數”是與目標相對的非目標值的屬性。“z值”是一種重要的統(tǒng)計措施。</p><p>  ?屬性84 T0 經常項目差額{經常項目差額帶來數百美分}數值在 1840.52和1277.62之間:計數209 / 86,比值2.43418,z數為: 7.17529。</p><p>  ?屬性119 T1_CRD帳戶格式化{帳戶記錄格式化,值是:1 =不活躍的帳戶,2 =賬戶一直活躍但目前不

53、活躍,3 =當前活躍帳戶,4 =拖欠帳款} 值在1.9和2.2之間,計數281/154,概率為1.82764,z數為6.10613。</p><p>  ?屬性56 T0非轉換系數的最小應付總額Z值{這個數字相當于在最后陳述的最低付款。這是用在與累計拖欠和周期數偏差允許時自動調整。}計數為353 / 214,比值1.65221,z數為 5.8568。</p><p>  ?屬性40 T0非

54、轉換系數的訂貨單的平衡 {它出現在持卡人最新聲明中的現行的最后平衡中,字段沒有被調整所影響。} 值在1840.52和1277.62之間:計數189 / 98,比值1.93171,z數為 5.38532。</p><p>  4.2.2. 決策樹</p><p>  決策樹方法是一個建立規(guī)則的集合的預測模型[ 10,16,17 ]。決策樹方法的優(yōu)勢是:規(guī)則容易被理解,且有助于發(fā)現潛在的業(yè)務流

55、程。決策樹方法的劣勢是:決策樹模型通常不像其他模型一樣運算。我們已經開發(fā)出一種決策樹專有的算法用來解決“枚舉”問題[ 10 ],例如:我們要盡量減少前25%的預測數據。這是一種常見的問題,例如:客戶流失和目標郵件。決策樹的柱狀圖如圖3所示。</p><p><b>  一些規(guī)則如下:</b></p><p>  規(guī)則8:(枚舉值=5.347,1-保險值=0.029)&

56、lt;/p><p>  T0 一個月重載的轉換系數 " 2</p><p>  T3 客戶需求日 = A1</p><p>  ->等級1 [0.889]</p><p>  規(guī)則 12: (枚舉值= 4.102, 1-保險值 = 0.162)</p><p>  T0 當前賬目余額轉換系數 "

57、407.06</p><p>  T2 日期最后結算單轉換系數" 1998.055</p><p>  T3客戶需求日 = A2</p><p>  ->等級 1 [0.859]</p><p>  規(guī)則 14: (枚舉值 = 3.927, 1-保險值 = 0.318)</p><p>  T2 人工神

58、經網絡電荷研制試驗轉換系數" 1998.164</p><p>  T0 未購買網絡的轉換系數 " 0</p><p>  T0當前賬目余額轉換系數 " 407.06</p><p>  T3 客戶需求日= A1</p><p>  -> 等級 1 [0.812]</p><p> 

59、 規(guī)則9: (枚舉值 = 3.868, 1-保險值 = 0.385)</p><p>  T0 當前賬戶余額轉換系數 " 407.06</p><p>  T3 自上而下抽樣控制寄存轉換系數 > 606</p><p>  T3 客戶需求日= A3</p><p>  T3 是否使用計算機會計信息處理轉換系數 3 > 9

60、260</p><p>  ->等級 1 [0.889]</p><p>  Figure 3. Decision tree model lift chart</p><p>  圖解3:決策樹模型柱狀圖。紅色為:決策樹;白色為:沒有模型。橫軸為賬戶百分比,縱軸為流失客戶數量。</p><p><b>  上圖為決策樹結果。&

61、lt;/b></p><p>  4.2.3. 神經網絡</p><p>  神經網絡對于模型建立來說是一種完善的建模方法[7,14,18]。這種方法的優(yōu)勢是:神經網絡模型可能成為最精確的預測模型。神經網絡模型的劣勢是:它的輸出可能很難被理解。為了我們的調查,我們使用了一個商業(yè)軟件包(人工神經網絡軟件):</p><p>  ? 對于字段選擇適當的輸入轉移功能

62、</p><p>  ?選擇變量自己的數據模型</p><p>  ? 建立“有建設性”的神經網絡模型</p><p>  圖解4中枚舉了神經網絡柱狀圖。</p><p>  Figure 4. Neural net model lift chart.</p><p>  圖解四:神經網絡模型柱狀圖 。圖示為每個百分比

63、賬戶中,客戶流失的數量。</p><p><b>  結果如上圖所示。</b></p><p>  4.2.4. 自然選擇下的樸素貝葉斯網絡</p><p>  樸素貝葉斯分類器是一種概率預測模型,假設所有的屬性都是有條件的相互獨立的目標變量[19],即在每個分類器中的屬性是沒有關系的。樸素貝葉斯分類器是簡單的,內在的強大的噪音,并能很好地進行

64、擴展功能,包括許多不相關的功能。此外,盡管它的簡單性和在每個獨立分類器的屬性有著強大的假設性,它已被證明在許多自然領域中,能夠得到高準確性。自然條件下的樸素貝葉斯分類器是一種擴展的樸素貝葉斯分類器的設計,有更好的高度相關(冗余)功能性。直覺是高度相關的功能,如果不選擇,分類應該有更好的表現其特征獨立性假設。屬性中選擇一個空集的屬性開始,然后逐步增加,單個屬性(由未選擇的屬性的組)的屬性,該屬性最提高所得的分類器的精確度上的測試集。屬性中

65、選擇,直到添加任何其他屬性的查詢結果中的分類器的精確度下降。自然選擇條件下的樸素貝葉斯網絡如圖解5所示。</p><p>  Figure 5. Selective Na¨?ve Bayesian network model lift chart.</p><p>  圖解5:選擇貝葉斯網絡模型的柱狀圖。</p><p><b>  結果如上圖所

66、示。</b></p><p>  4.2.5. 一種混合方法: 一種分類器集成方法</p><p>  一種分類器的集成是生成一組分類器而不是新項目分類的一種分類器,希望多種分類器的結合從而得到更精確的值[ 4,15,20,21 ]。分類器的集成已被證明是提高分類精度的一個非常有效的方法,因為個體分類器所犯的不相關的錯誤能夠通過投票從而被刪除。一種分類器,利用分類規(guī)則中一組最小

67、分類來區(qū)分未來的例子,可能會導致錯誤。分類器的集成是一系列的分類器,這些分類器在一些方面來劃分新樣本。為構建分類器的集成創(chuàng)建了一些方法,有些是一般的算法和有些特定的算法[ 4,8 ]。我們采用了一種混合的方法:首先,我們用自然條件下的貝葉斯網絡(BNB)來建立4種分類器,人工神經網絡的預測,決策樹,自然選擇條件下的貝葉斯網絡(SNB),然后我們在主要通過投票將從4個分類集合成一個分類器[4]。集成分類器比任何4個個體分類器得到更精確的字

68、段。</p><p>  上圖是集成分類器所得到的結果。</p><p><b>  5. 數據挖掘發(fā)現</b></p><p>  最初的研究揭露了一系列變量之間的關系以及臨界值來進一步的探討與分析。如下總結了重要的觀點和一些可能的含義:</p><p>  上表顯示,一些特定的值(或數值范圍)的屬性是來預測保留客戶和

69、/流失客戶。這些解釋增加了我們的信心,而這些屬性值將繼續(xù)在未來繼續(xù)預測。</p><p><b>  字段檢測</b></p><p>  為了檢測數據挖掘的有效性,我們的客戶采取了字段檢測。測試要顯示出兩個要點:</p><p>  1.客戶流失率包含了集中的流失客戶。</p><p>  2.基于營銷方法的數據挖掘對

70、于保留目標是有效的。</p><p>  他們對現有客戶的分類方法從而生成的模型,然后將客戶流失比率再次進行分類。他們決定與列表中的前4%的現有客戶進行聯(lián)系(大約750000名),其中有大約30000名客戶。他們把客戶隨機分為2組,每一組大約有15000名,然后對不同組的客戶采取積極主動地行動:第一組,市場營銷部門接觸每一個客戶,并提供了一些優(yōu)惠措施來鼓勵客戶留在公司;而第二組,沒有采取任何聯(lián)系。經過2個月后,他

71、們檢查列表然后發(fā)現,在第一組中,流失率非常低(0.12%),而在第二組中,流失率非常高,幾乎是5.6%,在兩個月累積平均流失率為1.1%,因此獲得了5.0的字段(在測試數據段中,列表中始終保持著數據4.6)。在第一組中較低的流失率顯示,如果積極主動的行動是及時的和適當的,這對客戶行為確實有影響,而第二組的高流失率證明,我們的數據挖掘模型是正確和前4 %高比例的流失率被捕捉。</p><p><b>  

72、6. 結論</b></p><p>  在此篇論文中,我們演示了一種零售銀行客戶損失分析數據挖掘方法。我們討論了關于傾向性數據、時序數據展開、遺漏檢測和一項零售銀行損失分析數據挖掘任務的步驟。我們討論枚舉法在作為損失分析的適當方法上的用處,比較了決策樹枚舉法,貝葉斯網絡等多種數據挖掘方法以及這些方法的效果。我們最初的發(fā)現顯示出一些有趣的結果。我們客戶的實踐檢驗證明了損失數據挖掘預測模型是很準確的,目標

73、導向的措施也是有效的。</p><p><b>  參 考 文 獻</b></p><p>  [1]輝戈碩士,1996年。挖掘客戶數據庫的電力二代的策略和技巧?!锻暾臄祿鞝I銷》。</p><p>  [2]北森, 埃格蒙特彼得森, 布朗,為僧尼絲?!皩W習貝葉斯網絡分類器對使用馬爾可夫鏈的信用評分”技術報告,荷蘭烏特列支大學,信息與計算機科

74、學學院。</p><p>  [3]杯踏查瑞亞,1998年。“采用遺傳算法直接營銷的反應模式”,第四國際的知識發(fā)現與數據挖掘會議,144–148頁。</p><p>  [4]胡茬,2001年?!袄么植诩碚摵筒僮鲾祿?,構建數據挖掘應用的一個很好的集成分類器,”的過程。2001屆IEEE國際會議上的數據挖掘技術, 233–240頁。</p><p>  [5]

75、教務長和福塞特“分類器的性能可視化分析:不精確的類和成本分配的比較,“三屆國際會議的知識發(fā)現和數據挖掘會議,43–48頁。</p><p>  [6]漿果和洛妮芙,1998年。精通數據挖掘:客戶關系管理的科學與藝術。</p><p>  [7] 碩士,1995年。神經,新穎的混合時間序列預測算法,約翰威利父子公司。</p><p>  [8] 聯(lián)合國英達科尼和肖洛姆

76、,2001年?!敖鉀Q基于規(guī)則的集成分類器的回歸問題,”的過程, 287–292頁。</p><p>  [9] 夏皮羅,疲沓沓撕開,馬思德,“估計運動的好處和模擬電梯,”的程序。第五國際會議上的知識發(fā)現和數據挖掘,185–193頁。</p><p>  [10] 胡查,2002 年?!翱蛻袅魇Х治龅姆诸惙椒ǖ谋容^”的過程。第三屆國際會議,《粗糙集和當前的趨勢》,施普林格出版社,487–49

77、2頁。</p><p>  [11]林茨和里茨,1998 年?!爸苯訝I銷數據挖掘:問題和解決方案”。第四屆國際會議的知識發(fā)現和數據挖掘,73–79頁。</p><p>  [12]馬珊德和夏皮羅,1996 年?!白畲蠡髽I(yè)盈利預測模型比較”。第二國際的知識發(fā)現與數據挖掘會議,195–201年。</p><p>  [13]埃爾坎,1997年9月。“促進樸素樸素貝葉斯

78、學習,”技術報告號CS97–557,加利福尼亞大學,迭戈。</p><p>  [14]墾利尼,1996年。“動蕩的時間序列數據的非線性金融預測一個簡單的神經網絡預測的過程”。第四屆國際會議的神經網絡在資本市場,134–140頁。</p><p>  [15] 思噶波,弗氏,扒塔拉特,和李,“提高保證金:投票的方法有效性的一種新的解釋”統(tǒng)計年鑒。</p><p> 

79、 [16] 強尼昆蘭,“決策樹”機器學習,卷1,1號,81–96頁。</p><p>  [17] 強尼昆蘭,1996年。“裝袋,促進,與C4.5算法”。在第十三屆人工智能程序,725–730頁。</p><p>  [18] 格蘭達塔斯和廣,1996 年?!吧窠浘W絡的黃金期貨價格預測的重要因素”。第四屆國際會議的神經網絡在資本市場,163–176頁。</p><p&g

80、t;  [19] 弗里德曼,蓋革和金子蜜桃撒,1997 年。“貝葉斯網絡分類器,“機器學習,卷29,131–163頁。</p><p>  [20] 斯佩爾,2002 年。“提高機器學習方法:概述”非線性估計和分類研討會。</p><p>  [21]瑞切爾,斯佩爾,拉希姆和噶破塔,2002 年?!皩嶒炛R提高”。第十九的機器學習國際研討會。</p><p>  

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論