2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)分析如何處理數(shù)據(jù)缺失問(wèn)題數(shù)據(jù)分析如何處理數(shù)據(jù)缺失問(wèn)題造成數(shù)據(jù)缺失的原因在各種實(shí)用的數(shù)據(jù)庫(kù)中,屬性值缺失的情況經(jīng)常發(fā)全甚至是不可避免的。因此,在大多數(shù)情況下,信息系統(tǒng)是不完備的,或者說(shuō)存在某種程度的不完備。造成數(shù)據(jù)缺失的原因是多方面的,主要可能有以下幾種:1)有些信息暫時(shí)無(wú)法獲取。例如在醫(yī)療數(shù)據(jù)庫(kù)中,并非所有病人的所有臨床檢驗(yàn)結(jié)果都能在給定的時(shí)間內(nèi)得到,就致使一部分屬性值空缺出來(lái)。又如在申請(qǐng)表數(shù)據(jù)中,對(duì)某些問(wèn)題的反映依賴于對(duì)其他問(wèn)題的

2、回答。2)有些信息是被遺漏的??赡苁且?yàn)檩斎霑r(shí)認(rèn)為不重要、忘記填寫(xiě)了或?qū)?shù)據(jù)理解錯(cuò)誤而遺漏,也可能是由于數(shù)據(jù)采集設(shè)備的故障、存儲(chǔ)介質(zhì)的故障、傳輸媒體的故障、一些人為因素等原因而丟失了。3)有些對(duì)象的某個(gè)或某些屬性是不可用的。也就是說(shuō),對(duì)于這個(gè)對(duì)象來(lái)說(shuō),該屬性值是不存在的,如一個(gè)未婚者的配偶姓名、一個(gè)兒童的固定收入狀況等。4)有些信息(被認(rèn)為)是不重要的。如一個(gè)屬性的取值與給定語(yǔ)境是無(wú)關(guān)的,或訓(xùn)練數(shù)據(jù)庫(kù)的設(shè)計(jì)者并不在乎某個(gè)屬性的取值(稱為

3、dontcarevalue)。5)獲取這些信息的代價(jià)太大。6)系統(tǒng)實(shí)時(shí)性能要求較高,即要求得到這些信息前迅速做出判斷或決策。處理數(shù)據(jù)缺失的機(jī)制在對(duì)缺失數(shù)據(jù)進(jìn)行處理前,了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的。將數(shù)據(jù)集中不含缺失值的變量(屬性)稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量,Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機(jī)制:1)完全隨機(jī)缺失(MissingCompletelyatRom,MCAR)。數(shù)據(jù)的缺失與不

4、完全變量以及完全變量都是無(wú)關(guān)的。此,空缺的數(shù)據(jù)需要通過(guò)專門的方法進(jìn)行推導(dǎo)、填充等,以減少數(shù)據(jù)挖掘算法與實(shí)際應(yīng)用之間的差距??罩堤幚矸椒ǖ姆治霰容^處理不完備數(shù)據(jù)集的方法主要有以下三大類:(一)刪除元組也就是將存在遺漏信息屬性值的對(duì)象(元組,記錄)刪除,從而得到一個(gè)完備的信息表。這種方法簡(jiǎn)單易行,在對(duì)象有多個(gè)屬性缺失值、被刪除的含缺失值的對(duì)象與信息表中的數(shù)據(jù)量相比非常小的情況下是非常有效的,類標(biāo)號(hào)(假設(shè)是分類任務(wù))缺少時(shí)通常使用。然而,這種

5、方法卻有很大的局限性。它是以減少歷史數(shù)據(jù)來(lái)?yè)Q取信息的完備,會(huì)造成資源的大量浪費(fèi),丟棄了大量隱藏在這些對(duì)象中的信息。在信息表中本來(lái)包含的對(duì)象很少的情況下,刪除少量對(duì)象就足以嚴(yán)重影響到信息表信息的客觀性和結(jié)果的正確性;當(dāng)每個(gè)屬性空值的百分比變化很大時(shí),它的性能非常差。因此,當(dāng)遺漏數(shù)據(jù)所占比例較大,特別當(dāng)遺漏數(shù)據(jù)非隨機(jī)分布時(shí),這種方法可能導(dǎo)致數(shù)據(jù)發(fā)生偏離,從而引出錯(cuò)誤的結(jié)論。(二)數(shù)據(jù)補(bǔ)齊這類方法是用一定的值去填充空值,從而使信息表完備化。通

6、常基于統(tǒng)計(jì)學(xué)原理,根據(jù)決策表中其余對(duì)象取值的分布情況來(lái)對(duì)一個(gè)空值進(jìn)行填充,譬如用其余屬性的平均值來(lái)進(jìn)行補(bǔ)充等。數(shù)據(jù)挖掘中常用的有以下幾種補(bǔ)齊方法:(1)人工填寫(xiě)(fillingmanually)由于最了解數(shù)據(jù)的還是用戶自己,因此這個(gè)方法產(chǎn)生數(shù)據(jù)偏離最小,可能是填充效果最好的一種。然而一般來(lái)說(shuō),該方法很費(fèi)時(shí),當(dāng)數(shù)據(jù)規(guī)模很大、空值很多的時(shí)候,該方法是不可行的。(2)特殊值填充(TreatingMissingAttributevaluesas

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論