基于游客屬性信息的消費因素數(shù)據(jù)挖掘.pdf_第1頁
已閱讀1頁,還剩76頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、在當今社會,旅游已經(jīng)成為了一種時尚的休閑娛樂方式。然而景區(qū)的收入?yún)s不容樂觀。為了解決這個問題,許多景區(qū)開始通過各種渠道收集信息并進行分析。然而有些部門卻沒有充分的研究利用這些寶貴的數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能夠自動方便地挖掘隱藏的知識模式。本文在旅游數(shù)據(jù)上建立隨機森林模型,利用模型分析出影響游客消費水平的因素,進而提高旅游景區(qū)的收益。隨機森林算法具有諸多優(yōu)點,但是該算法在分類性能上還有一定的提升空間,本文嘗試對特征抽取的過程進行改進從而提高模型

2、的分類性能。本文的主要工作如下:
  (1)隨機森林模型的構(gòu)建。首先對收集到的旅游數(shù)據(jù)進行預處理。由于預處理后的數(shù)據(jù)集是不平衡數(shù)據(jù)集,本文采取SMOTE算法對不平衡數(shù)據(jù)集進行處理,得到相對平衡的數(shù)據(jù)集。在相對平衡數(shù)據(jù)集的基礎(chǔ)上,建立隨機森林模型。進而得出特征變量的重要性以及特征變量與類別變量的偏相關(guān)關(guān)系。實驗結(jié)果表明收入水平,旅游天數(shù),旅游方式,景區(qū)游覽主題的鮮明程度,景區(qū)服務質(zhì)量,門票價格對游客消費影響較大。收入水平,旅游天數(shù),

3、景區(qū)游覽主題的鮮明程度,景區(qū)服務質(zhì)量與游客消費水平呈正相關(guān)關(guān)系。根據(jù)偏相關(guān)關(guān)系得出特征變量對類別變量的影響趨勢變化,進而對景區(qū)提出相應的改進建議。
  (2)隨機森林模型的改進。首先詳細分析影響隨機森林模型的因素,其中包括節(jié)點分裂的預選屬性個數(shù),隨機森林模型中決策樹的個數(shù)以及建模過程中的兩個隨機性。針對特征抽取的隨機過程提出了分區(qū)間抽取方法。利用互信息得出特征變量與類別變量間的關(guān)聯(lián)程度,根據(jù)此關(guān)聯(lián)程度對特征變量進行排序,進而劃分出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論