2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、作為數(shù)據(jù)分析和處理的重要工具,知識(shí)發(fā)現(xiàn)(KDD)與數(shù)據(jù)挖掘技術(shù)的相關(guān)研究成果已廣泛地應(yīng)用在金融、醫(yī)療保健、零售等相關(guān)統(tǒng)計(jì)行業(yè),其中,關(guān)聯(lián)規(guī)則挖掘在金融統(tǒng)計(jì)、股票預(yù)測(cè)方面應(yīng)用更為廣泛,但非經(jīng)典關(guān)聯(lián)規(guī)則挖掘面臨著所謂的“高階邏輯”問(wèn)題,因此本文從以下方面開(kāi)展了相關(guān)研究:
  首先,面對(duì)的對(duì)象在數(shù)量級(jí)上有本質(zhì)區(qū)別。經(jīng)典的購(gòu)物籃挖掘數(shù)據(jù)量與股票挖掘數(shù)據(jù)量有本質(zhì)上區(qū)別。前者可用一個(gè)常數(shù)n來(lái)表示,而后者則只能用一個(gè)無(wú)窮符號(hào)∞來(lái)表達(dá)。對(duì)股價(jià)描述

2、,特別是對(duì)一些基于(標(biāo)的股票)價(jià)格之上的衍生資產(chǎn),直接套用泛Apriori算法是不合適的。
  其次,面臨的時(shí)間、空間復(fù)雜度瓶頸問(wèn)題更加嚴(yán)峻。股票具有很強(qiáng)的隨機(jī)性、不確定性和模糊性。以往經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法不能較好地表達(dá)挖掘?qū)ο笾心:畔⒅g的關(guān)聯(lián)性。事實(shí)也證明,當(dāng)數(shù)據(jù)量較小時(shí),用模糊關(guān)聯(lián)規(guī)則算法處理股票數(shù)據(jù)是非常有效的辦法。但面對(duì)大數(shù)據(jù)量或超大數(shù)據(jù)量卻存在時(shí)間、空間復(fù)雜度等瓶頸問(wèn)題。
  最后,會(huì)面臨信號(hào)衰竭甚至失蹤問(wèn)題

3、。當(dāng)以基于事務(wù)的觀點(diǎn)應(yīng)用滑動(dòng)窗口技術(shù)將股票原始事務(wù)數(shù)據(jù)庫(kù)D轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫(kù)De時(shí)會(huì)大量出現(xiàn)支持度明顯很低甚至小到都可不予考慮,然而置信度卻相對(duì)較高的有趣問(wèn)題。如果一味用傳統(tǒng)的挖掘算法會(huì)很難處理這些有趣的關(guān)聯(lián)規(guī)則。
  針對(duì)以上問(wèn)題,本文證明了在對(duì)股票及其衍生品種的海量數(shù)據(jù)挖掘及算法設(shè)計(jì)中大數(shù)定律和中心極限定理依然是處理海量數(shù)據(jù)必不可少的理論基礎(chǔ)。其次,當(dāng)面對(duì)大數(shù)據(jù)量或超大數(shù)據(jù)量時(shí),時(shí)間、空間復(fù)雜度瓶頸問(wèn)題會(huì)更嚴(yán)峻,并還伴隨興趣

4、度不夠或(有趣的)關(guān)聯(lián)規(guī)則因難以發(fā)現(xiàn)而被遺漏等問(wèn)題。對(duì)此我們采用向量、矩陣和降維等方法進(jìn)行相關(guān)處理。但問(wèn)題是股票數(shù)據(jù)矩陣往往特別大等原因以至內(nèi)存難以承受,有沒(méi)有一個(gè)理論辦法在與高維數(shù)據(jù)打交道時(shí)能避開(kāi)維數(shù)過(guò)高所帶來(lái)的困難,依數(shù)據(jù)間的相依性設(shè)法把維數(shù)降低,而又不丟失原始數(shù)據(jù)中的過(guò)多信息以便數(shù)據(jù)處理知識(shí)提取呢?在相似關(guān)聯(lián)規(guī)則挖掘算法中本文對(duì)這個(gè)問(wèn)題給出較完備的數(shù)學(xué)證明。即只要降維就會(huì)出現(xiàn)出錯(cuò)率,但一定有辦法在誤差可控的情況下去逼近真值。

5、>  相似度的給出是本文算法設(shè)計(jì)的關(guān)鍵之處。相似度極好地近似了置信度概念。為了進(jìn)一步提高算法效率我們對(duì)相似度還給出了一個(gè)好的估計(jì)S*(ci,cj)。進(jìn)一步的我們還證明了S*(ci,cj)在項(xiàng)集間同樣具有反單調(diào)性,故完全可借鑒Apriori算法來(lái)發(fā)現(xiàn)滿足相似度門檻值s的多個(gè)擴(kuò)展項(xiàng)集。這樣就保證了如果要在相似項(xiàng)集間進(jìn)行模式匹配是能具有數(shù)學(xué)完備性的。把交易數(shù)據(jù)庫(kù)轉(zhuǎn)化為0-1矩陣形式,然后進(jìn)行最小哈希變換和多次矩陣轉(zhuǎn)換來(lái)簡(jiǎn)化和抽取具有相似特征的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論