lesson13-廈門大學-林子雨-大數據技術原理與應用-第13講-教材第十一、十二、十三章-大數據_第1頁
已閱讀1頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、,廈門大學計算機科學系 2016年版,林子雨廈門大學計算機科學系E-mail: ziyulin@xmu.edu.cn主頁:http://www.cs.xmu.edu.cn/linziyu,,,,《大數據技術原理與應用》,http://dblab.xmu.edu.cn/post/bigda

2、ta,第十三講 大數據在不同領域的應用 (2016春季學期),課堂內容與教材對應關系說明,廈門大學林子雨編著《大數據技術原理與應用》2015年8月1日人民郵電出版社出版發(fā)行第1版教材共包含13章內容,第一章 大數據概述第二章 大數據處理架構Hadoop第三章 分布式文件系統HDFS第四章 分布式數據庫HBase第五章 NoSQL數據庫第六章 云數據庫第七章 MapReduce第八章 流計算第九章 圖計算第十章 數

3、據可視化(自學)第十一章 大數據在互聯網領域的應用第十二章 大數據在生物醫(yī)學領域的應用(自學)第十三章 大數據的其他應用(自學)2016年新增章節(jié)(將加入到第2版教材中)第14章基于Hadoop的數據倉庫Hive第15章Hadoop架構再探討第16章Spark,課堂內容與教材對應關系說明,,中國高校大數據課程公共服務平臺,http://dblab.xmu.edu.cn/post/bigdata-teaching-plat

4、form/,百度搜索“廈門大學數據庫實驗室”訪問平臺主頁,課程教材講義PPT學習指南,免費提供,備課指南上機習題,授課視頻技術資料,全方位、一站式服務,提綱,大數據應用概覽第11章 大數據在互聯網領域的應用11.1 推薦系統概述11.2 推薦算法 – 協同過濾11.3 協同過濾實踐 – 電影推薦系統第12章 大數據在生物醫(yī)學領域的應用12.1 基于大數據的綜合健康服務平臺第13章 大數據的其他應用13.1

5、大數據在物流領域中的應用,本PPT是如下教材的配套講義:21世紀高等教育計算機規(guī)劃教材《大數據技術原理與應用——概念、存儲、處理、分析與應用》 (2015年8月第1版)廈門大學 林子雨 編著,人民郵電出版社ISBN:978-7-115-39287-9,歡迎訪問《大數據技術原理與應用》教材官方網站:http://dblab.xmu.edu.cn/post/bigdata歡迎訪問“中國高校大數據課程公共服務平臺”旗下子欄目“

6、大數據課程學生服務站”,為學生學習大數據課程提供全方位、一站式免費服務:http://dblab.xmu.edu.cn/post/4331/,大數據應用概覽,11.1推薦系統概述,11.1.1 什么是推薦系統11.1.2 長尾理論11.1.3 推薦方法11.1.4 推薦系統模型11.1.5 推薦系統的應用,11.1.1 什么是推薦系統,互聯網的飛速發(fā)展使我們進入了信息過載的時代,搜索引擎可以幫助我們查找內容,但只能

7、解決明確的需求為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統應運而生。推薦系統是大數據在互聯網領域的典型應用,它可以通過分析用戶的歷史記錄來了解用戶的喜好,從而主動為用戶推薦其感興趣的信息,滿足用戶的個性化推薦需求推薦系統是自動聯系用戶和物品的一種工具,和搜索引擎相比,推薦系統通過研究用戶的興趣偏好,進行個性化計算。推薦系統可發(fā)現用戶的興趣點,幫助用戶從海量信息中去發(fā)掘自己潛在的需求,推薦系統可以創(chuàng)造全新的商業(yè)和經濟模式,

8、幫助實現長尾商品的銷售“長尾”概念于2004年提出,用來描述以亞馬遜為代表的電子商務網站的商業(yè)和經濟模式電子商務網站銷售種類繁多,雖然絕大多數商品都不熱門,但這些不熱門的商品總數量極其龐大,所累計的總銷售額將是一個可觀的數字,也許會超過熱門商品所帶來的銷售額因此,可以通過發(fā)掘長尾商品并推薦給感興趣的用戶來提高銷售額。這需要通過個性化推薦來實現,11.1.2 長尾理論,熱門推薦是常用的推薦方式,廣泛應用于各類網站中,如熱門排行榜。但

9、熱門推薦的主要缺陷在于推薦的范圍有限,所推薦的內容在一定時期內也相對固定。無法實現長尾商品的推薦個性化推薦可通過推薦系統來實現。推薦系統通過發(fā)掘用戶的行為記錄,找到用戶的個性化需求,發(fā)現用戶潛在的消費傾向,從而將長尾商品準確地推薦給需要它的用戶,進而提升銷量,實現用戶與商家的雙贏,11.1.2 長尾理論,推薦系統的本質是建立用戶與物品的聯系,根據推薦算法的不同,推薦方法包括如下幾類:專家推薦基于統計的推薦基于內容的推薦協同過濾

10、推薦混合推薦,11.1.3 推薦方法,一個完整的推薦系統通常包括3個組成模塊:用戶建模模塊、推薦對象建模模塊、推薦算法模塊:用戶建模模塊:對用戶進行建模,根據用戶行為數據和用戶屬性數據來分析用戶的興趣和需求推薦對象建模模塊:根據對象數據對推薦對象進行建模推薦算法模塊:基于用戶特征和物品特征,采用推薦算法計算得到用戶可能感興趣的對象,并根據推薦場景對推薦結果進行一定調整,將推薦結果最終展示給用戶,11.1.4 推薦系統模型,圖11

11、-1 推薦系統基本架構,目前推薦系統已廣泛應用于電子商務、在線視頻、在線音樂、社交網絡等各類網站和應用中如亞馬遜網站利用用戶的瀏覽歷史記錄來為用戶推薦商品,推薦的主要是用戶未瀏覽過,但可能感興趣、有潛在購買可能性的商品,11.1.5 推薦系統的應用,圖11-2 亞馬遜網站根據用戶的瀏覽記錄來推薦商品,推薦系統在在線音樂應用中也逐漸發(fā)揮作用。音樂相比于電影數量更為龐大,個人口味偏向也更為明顯,僅依靠熱門推薦是遠遠不夠的蝦米音樂網根據用

12、戶的音樂收藏記錄來分析用戶的音樂偏好,以進行推薦。例如,推薦同一風格的歌曲,或是推薦同一歌手的其他歌曲,11.1.5 推薦系統的應用,圖11-3 蝦米音樂網根據用戶的音樂收藏來推薦歌曲,推薦技術從被提出到現在已有十余年,在多年的發(fā)展歷程中誕生了很多新的推薦算法。協同過濾作為最早、最知名的推薦算法,不僅在學術界得到了深入研究,而且至今在業(yè)界仍有廣泛的應用協同過濾可分為基于用戶的協同過濾和基于物品的協同過濾11.2.1 基于用戶的協

13、同過濾(UserCF)11.2.2 基于物品的協同過濾(ItemCF)11.2.3 UserCF算法和ItemCF算法的對比,11.2 協同過濾,基于用戶的協同過濾算法(簡稱UserCF算法)在1992年被提出,是推薦系統中最古老的算法UserCF算法的實現主要包括兩個步驟:第一步:找到和目標用戶興趣相似的用戶集合第二步:找到該集合中的用戶所喜歡的、且目標用戶沒有聽說過的物品推薦給目標用戶,11.2.1 基于用戶的協同過濾

14、(UserCF),11.2.1 基于用戶的協同過濾(UserCF),圖11-4 基于用戶的協同過濾(User CF),實現UserCF算法的關鍵步驟是計算用戶與用戶之間的興趣相似度。目前較多使用的相似度算法有:泊松相關系數(Person Correlation Coefficient)余弦相似度(Cosine-based Similarity)調整余弦相似度(Adjusted Cosine Similarity)給定用戶u和用

15、戶v,令N(u)表示用戶u感興趣的物品集合,令N(v)為用戶v感興趣的物品集合,則使用余弦相似度進行計算用戶相似度的公式為:,11.2.1 基于用戶的協同過濾(UserCF),由于很多用戶相互之間并沒有對同樣的物品產生過行為,因此其相似度公式的分子為0,相似度也為0我們可以利用物品到用戶的倒排表(每個物品所對應的、對該物品感興趣的用戶列表),僅對有對相同物品產生交互行為的用戶進行計算,11.2.1 基于用戶的協同過濾(UserCF),

16、圖11-5 物品到用戶倒排表及用戶相似度矩陣,用戶,物品,物品,用戶,用戶,用戶,得到用戶間的相似度后,再使用如下公式來度量用戶u對物品i的興趣程度Pui:其中,S(u, K)是和用戶u興趣最接近的K個用戶的集合,N(i)是喜歡物品i的用戶集合,Wuv是用戶u和用戶v的相似度,rvi是隱反饋信息,代表用戶v對物品i的感興趣程度,為簡化計算可令rvi=1對所有物品計算Pui后,可以對Pui進行降序處理,取前N個物品作為推薦結果

17、展示給用戶u(稱為Top-N推薦),11.2.1 基于用戶的協同過濾(UserCF),基于物品的協同過濾算法(簡稱ItemCF算法)是目前業(yè)界應用最多的算法。無論是亞馬遜還是Netflix,其推薦系統的基礎都是ItemCF算法ItemCF算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品。ItemCF算法主要通過分析用戶的行為記錄來計算物品之間的相似度該算法基于的假設是:物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大多也

18、喜歡物品B。,11.2.2 基于物品的協同過濾(ItemCF),11.2.2 基于物品的協同過濾(ItemCF),圖11-6 基于物品的協同過濾(Item CF),ItemCF算法與UserCF算法類似,計算也分為兩步:第一步:計算物品之間的相似度第二步:根據物品的相似度和用戶的歷史行為,給用戶生成推薦列表,11.2.2 基于物品的協同過濾(ItemCF),ItemCF算法通過建立用戶到物品倒排表(每個用戶喜歡的物品的列表)來計算物

19、品相似度,11.2.2 基于物品的協同過濾(ItemCF),,圖11-7用戶到物品倒排表及物品相似度矩陣,用戶,物品,物品,物品,ItemCF計算的是物品相似度,再使用如下公式來度量用戶u對物品j的興趣程度Puj(與UserCF類似):,11.2.2 基于物品的協同過濾(ItemCF),其中,S(j, K)是和物品j最相似的K個物品的集合,N(u)是用戶u喜歡的物品的集合,wji物品i和物品j的相似度,rui是隱反饋信息,代表用戶u對物

20、品i的感興趣程度,為簡化計算可令rvi=1,UserCF算法和ItemCF算法的思想、計算過程都相似兩者最主要的區(qū)別:UserCF算法推薦的是那些和目標用戶有共同興趣愛好的其他用戶所喜歡的物品ItemCF算法推薦的是那些和目標用戶之前喜歡的物品類似的其他物品UserCF算法的推薦更偏向社會化,而ItemCF算法的推薦更偏向于個性化,11.2.3 UserCF算法和ItemCF算法的對比,圖11-4 基于用戶的協同過濾(User

21、CF),圖11-6 基于物品的協同過濾(Item CF),UserCF算法的推薦更偏向社會化:適合應用于新聞推薦、微博話題推薦等應用場景,其推薦結果在新穎性方面有一定的優(yōu)勢UserCF缺點:隨著用戶數目的增大,用戶相似度計算復雜度越來越高。而且UserCF推薦結果相關性較弱,難以對推薦結果作出解釋,容易受大眾影響而推薦熱門物品ItemCF算法的推薦更偏向于個性化:適合應用于電子商務、電影、圖書等應用場景,可以利用用戶的歷史行為給推

22、薦結果作出解釋,讓用戶更為信服推薦的效果ItemCF缺點:傾向于推薦與用戶已購買商品相似的商品,往往會出現多樣性不足、推薦新穎度較低的問題,11.2.3 UserCF算法和ItemCF算法的對比,12.1基于大數據的綜合健康服務平臺,安全隱私,數據標準,目標:構建覆蓋全生命周期、內涵豐富、結構合理的以人為本全面連續(xù)的綜合健康服務體系,利用大數據技術和智能設備技術,提供線上線下相結合的公眾健康服務,實現“未病先防、已病早治、既病防變、愈

23、后防復”,滿足社會公眾多層次、多方位的健康服務需求,提升人民群眾的身心健康水平。,13.1 大數據在物流領域的應用,菜鳥網絡到底是什么?中國智能物流骨干網,又名“菜鳥”菜鳥網絡計劃在5到8年內,打造一個全國性的超級物流網。這個網絡能在24小時內將貨物運抵國內任何地區(qū),能支撐日均300億元(年度約10萬億元)的巨量網絡零售額。,1000億元投資物流基礎設施 強強聯手共建智能骨干網絡物流信息系統向所有的制造商、網商、快遞公司、

24、第三方物流公司完全開放,智能物流集成商案例:阿里巴巴的中國智能物流骨干網(地網),本章小結,本章內容首先介紹了推薦系統的概念,推薦系統可幫助用戶從海量信息中高效地獲得自己所需的信息接著介紹了不同的推薦方法以及推薦系統在電子商務、在線音樂等網站中的具體應用本章重點介紹了協同過濾算法,協同過濾算法是最早推出的推薦算法,至今仍獲得廣泛的應用,協同過濾包括基于用戶的協同過濾算法(UserCF)和基于物品的協同過濾算法(ItemCF)。這兩

25、種協同過濾算法思想相近,核心是計算用戶、物品的相似度,依據相似度來做出推薦。然而,這兩種協同過濾算法各自適合的應用場景不同,UserCF適合社交化應用,可作出新穎的推薦,而ItemCF則適合用于電子商務、電影等應用。在具體實踐中,常常結合多種推薦算法來提升推薦效果最后介紹了大數據在醫(yī)療健康領域的應用和大數據在物流領域的應用,附錄:主講教師,,單位:廈門大學計算機科學系E-mail: ziyulin@xmu.edu.cn個人網頁:h

26、ttp://www.cs.xmu.edu.cn/linziyu數據庫實驗室網站:http://dblab.xmu.edu.cn,主講教師:林子雨,掃一掃訪問個人主頁,林子雨,男,1978年出生,博士(畢業(yè)于北京大學),現為廈門大學計算機科學系助理教授(講師),曾任廈門大學信息科學與技術學院院長助理、晉江市發(fā)展和改革局副局長。中國高校首個“數字教師”提出者和建設者,廈門大學數據庫實驗室負責人,廈門大學云計算與大數據研究中心主要建設者和骨

27、干成員,2013年度廈門大學獎教金獲得者。主要研究方向為數據庫、數據倉庫、數據挖掘、大數據、云計算和物聯網,并以第一作者身份在《軟件學報》《計算機學報》和《計算機研究與發(fā)展》等國家重點期刊以及國際學術會議上發(fā)表多篇學術論文。作為項目負責人主持的科研項目包括1項國家自然科學青年基金項目(No.61303004)、1項福建省自然科學青年基金項目(No.2013J05099)和1項中央高校基本科研業(yè)務費項目(No.2011121049),同時

28、,作為課題負責人完成了國家發(fā)改委城市信息化重大課題、國家物聯網重大應用示范工程區(qū)域試點泉州市工作方案、2015泉州市互聯網經濟調研等課題。編著出版中國高校第一本系統介紹大數據知識的專業(yè)教材《大數據技術原理與應用》并成為暢銷書籍,編著并免費網絡發(fā)布40余萬字中國高校第一本閃存數據庫研究專著《閃存數據庫概念與技術》;主講廈門大學計算機系本科生課程《數據庫系統原理》和研究生課程《分布式數據庫》《大數據技術基礎》。具有豐富的政府和企業(yè)信息化培訓

29、經驗,曾先后給中國移動通信集團公司、福州馬尾區(qū)政府、福建省物聯網科學研究院、石獅市物流協會、廈門市物流協會、福建龍巖卷煙廠等多家單位和企業(yè)開展信息化培訓,累計培訓人數達2000人以上。,附錄:大數據學習教材推薦,歡迎訪問《大數據技術原理與應用——概念、存儲、處理、分析與應用》教材官方網站:http://dblab.xmu.edu.cn/post/bigdata,掃一掃訪問教材官網,《大數據技術原理與應用——概念、存儲、處理、分析與應用》

30、,由廈門大學計算機科學系林子雨博士編著,是中國高校第一本系統介紹大數據知識的專業(yè)教材。全書共有13章,系統地論述了大數據的基本概念、大數據處理架構Hadoop、分布式文件系統HDFS、分布式數據 庫HBase、NoSQL數據庫、云數據庫、分布式并行編程模型MapReduce、流計算、圖計算、數據可視化以及大數據在互聯網、生物醫(yī)學和物流等各個領域的應用。在Hadoop、HDFS、HBase和MapReduce等重要章節(jié),安排了入門級的

31、實踐操作,讓讀者更好地學習和掌握大數據關鍵技術。本書可以作為高等院校計算機專業(yè)、信息管理等相關專業(yè)的大數據課程教材,也可供相關技術人員參考、學習、培訓之用。,附錄:中國高校大數據課程公共服務平臺,掃一掃訪問平臺主頁,http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/,掃一掃觀看3分鐘FLASH動畫宣傳片,,Department of Computer Science, X

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論