基于廣義半監(jiān)督學習方法的軟件質(zhì)量預測研究.pdf_第1頁
已閱讀1頁,還剩181頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、軟件質(zhì)量預測是對軟件質(zhì)量進行早期預測和控制的方法,其主要使用機器學習或者統(tǒng)計學方法來構建軟件質(zhì)量模型,并以此對軟件中潛在的錯誤進行預測和預警。在軟件開發(fā)和測試過程中正確預測和識別具有錯誤傾向的軟件模塊,可以幫助軟件開發(fā)機構合理配置資源、降低研發(fā)成本、縮短產(chǎn)品開發(fā)周期,因此,有效的軟件質(zhì)量預測系統(tǒng)對于提高軟件產(chǎn)品質(zhì)量和企業(yè)聲譽有著重要的工程意義和經(jīng)濟價值。
   傳統(tǒng)軟件質(zhì)量預測的主要建模方法,在機器學習領域通常被稱為監(jiān)督學習方法

2、,其要求訓練過程中所用到的每個軟件模塊都要給出明確的質(zhì)量標簽。但是,準確可靠的軟件質(zhì)量標簽只有經(jīng)過詳盡、完整的軟件測試和對錯誤的精確定位才能得到,此過程耗時較長且成本較高,并且軟件質(zhì)量標簽的可靠性還經(jīng)常會被軟件開發(fā)中的許多實際因素所削弱,這些都限制了軟件質(zhì)量預測模型的廣泛使用。針對當前軟件質(zhì)量模型的不足,本論文旨在通過研究機器學習領域的一些新型廣義半監(jiān)督學習方法,探討如何使用較少的軟件質(zhì)量標簽來建立準確有效的軟件質(zhì)量模型,從而使其可以更

3、快速、高效、經(jīng)濟和廣泛地應用于實際的軟件開發(fā)和測試中。半監(jiān)督學習方法可以同時對有標簽樣本和無標簽樣本進行學習和訓練,因此,基于半監(jiān)督學習方法的軟件質(zhì)量系統(tǒng)具有構建快速、成本較低和應用范圍廣泛等優(yōu)點。本文所研究的廣義半監(jiān)督學習方法主要包括多示例學習、結構化核函數(shù)方法和主動學習方法,目前,關于半監(jiān)督學習方法在軟件質(zhì)量預測領域的研究還不多見,基于這三種新型廣義半監(jiān)督學習方法的軟件質(zhì)量模型也尚未見有文獻報道。
   在對所研究廣義半監(jiān)督

4、學習方法進行闡述之前,本文首先對傳統(tǒng)軟件質(zhì)量預測領域的研究做了一個框架性的綜述介紹。軟件質(zhì)量預測系統(tǒng)可以被分為四個主要的模塊,即數(shù)據(jù)集構建、質(zhì)量模型訓練、模型的評估測試和不同算法模型比較。文中對每個部分的主要任務和相關的研究工作分別進行了闡述。在數(shù)據(jù)集構建中,系統(tǒng)主要對數(shù)據(jù)進行屬性選擇、歸一化等預處理。數(shù)據(jù)集在預處理以后通常被劃分為訓練集和測試集,系統(tǒng)根據(jù)選定的具體算法在訓練集上構建軟件質(zhì)量預測模型,并在測試集數(shù)據(jù)上進行測試。對于得到的

5、模型需要進行參數(shù)計算以評估其性能,并以此對模型參數(shù)進行進一步的調(diào)整和優(yōu)化。最后,根據(jù)一定的檢驗標準和具體的數(shù)據(jù)集,可以對基于不同算法的軟件質(zhì)量模型進行比較。此框架介紹中所涉及的具體內(nèi)容包括軟件質(zhì)量概念、軟件度量、各類統(tǒng)計和學習算法以及模型評估參數(shù)的選擇策略。
   隨后本文介紹了所研究的第一種廣義半監(jiān)督學習架構多示例學習方法,并創(chuàng)新性地將其引入到軟件質(zhì)量預測領域中。多示例學習方法使用由多個示例構成的示例包作為基本的學習對象,因此

6、其在利用大量的軟件模塊信息的同時,只需要少量的軟件質(zhì)量標簽就可以進行建模和預測。文中介紹了多示例學習(MIL)的基本概念和相關研究,隨后將多示例學習與兩種相關的監(jiān)督學習架構SL-B和SL-I進行了深入的比較,并著重分析了SL-I對示例包產(chǎn)生錯誤分類的因為,給出了其理論表達式以及在多元正態(tài)分布假設下的近似估計。在實際工程數(shù)據(jù)集上的實驗表明,多示例方法比SL-B的預測效果更好,并可以使用較少的質(zhì)量標簽構建與SL-I預測準確度相當?shù)能浖|(zhì)量模

7、型。
   然后,本文將面向?qū)ο笮蛙浖械能浖K視為更加復雜的結構化數(shù)據(jù),并引入新型的結構化核函數(shù)方法進行了軟件質(zhì)量建模和分類預測研究。文中介紹了結構化核函數(shù)及其相關研究,概述了新型學習算法支持向量機(SVM)的理論研究和一些支持向量機,并提出了使用結構化核函數(shù)方法對軟件對象進行知識表示、模型構建和訓練的流程,和一種新穎的分層核函數(shù)。在由二分樹構成的人工數(shù)據(jù)集和實際.工業(yè)軟件數(shù)據(jù)集上的實驗表明,與傳統(tǒng)的監(jiān)督學習方法相比,結構化

8、核函數(shù)方法對于樹形的結構化數(shù)據(jù)普遍有著較好的分類效果。相比于實驗中的其它核函數(shù),分層核函數(shù)能夠更好地學習和預測面向?qū)ο筌浖械慕Y構化軟件模塊。在與前文的多示例學習方法進行的對比中發(fā)現(xiàn),多示例學習對于具有上下層關系的軟件模塊具有普適性,但是隨著模塊結構的進一步復雜化,其預測準確率會逐漸降低,而結構化核函數(shù)方法,特別是分層核函數(shù)則在學習復雜結構化數(shù)據(jù)方面顯示出較好的性能,因此其更適用于面向?qū)ο笮蛙浖械能浖|(zhì)量預測。
   區(qū)別于前

9、兩種廣義半監(jiān)督學習方法的聚類策略,本文隨后研究了采用主動選擇策略的主動學習方法在軟件質(zhì)量預測中的應用。與傳統(tǒng)監(jiān)督學習批量性、一次性訓練所有樣本的方法不同,主動學習方法通過主動選擇、逐次詢問和增長性學習的方法來構建模型。其主要優(yōu)點在于可以在不明顯損失學習精度的情況下,利用主動選擇的少量樣本即可進行建模。文中介紹了主動學習方法的基本知識、相關研究和關鍵性問題。在具體的軟件工程數(shù)據(jù)集上對兩種典型的池式主動學習算法和一種新型的流式主動學習算法進

10、行了實驗研究。結果表明選用的主動學習算法可以使用數(shù)據(jù)集百分之十左右的樣本有效地構建軟件質(zhì)量模型,其效果僅略遜于使用全部樣本的監(jiān)督學習式模型。因此,基于主動學習的軟件質(zhì)量預測對于指導靈活、快速的軟件測試具有很強的應用潛力和工程價值。另外,文中還對三種學習方法進行了綜合比較。
   最后,本文歸納了采用廣義半監(jiān)督學習進行軟件質(zhì)量預測的一些主要研究結論,并對未來工作作了一些展望。本文使用的實際數(shù)據(jù)集都來源于大型的重要軟件工程,其中的一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論