版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,,,,,,,,中國(guó)計(jì)算機(jī)學(xué)會(huì),全青年大數(shù)據(jù)創(chuàng)新大賽,“中國(guó)好創(chuàng)意”,,,目錄,1,2,3,4,大賽背景,賽事介紹,往屆大賽回顧,參賽技巧,“中國(guó)好創(chuàng)意”,大賽背景,,By 2018, the U.S. alone may face a 50 percent to 60 percent gap between supply and requisite demand of deep analytic talent.
2、------McKinsey,,,古老智慧 懸賞,眾包 現(xiàn)代思維,大賽背景,,,大賽背景,,,大賽背景,,,大賽背景,,,,,,,,,中國(guó)計(jì)算機(jī)學(xué)會(huì),全青年大數(shù)據(jù)創(chuàng)新大賽,“中國(guó)好創(chuàng)意”,,,大賽背景,組委會(huì)介紹,承辦單位,指導(dǎo)單位,戰(zhàn)略合作,出題單位,主辦單位,國(guó)家互聯(lián)網(wǎng)信息辦公室網(wǎng)絡(luò)數(shù)據(jù)與技術(shù)局,中國(guó)計(jì)算機(jī)學(xué)會(huì),CCF大數(shù)據(jù)專家委員會(huì)教育部易班發(fā)展中心北京數(shù)聯(lián)眾創(chuàng)科技有限公司,百度、中國(guó)聯(lián)通、中國(guó)移動(dòng)、阿里、海量、亞信數(shù)
3、據(jù)、中科曙光、華大基因、略數(shù)據(jù)、中華網(wǎng),清華大學(xué)、中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,,,大賽背景,旨在通過(guò)大賽構(gòu)建良好的資源共享平臺(tái),創(chuàng)造大數(shù)據(jù)的良性發(fā)展環(huán)境,促進(jìn)大數(shù)據(jù)、“互聯(lián)網(wǎng)+”與云計(jì)算等戰(zhàn)略新興產(chǎn)業(yè)的融合,促進(jìn)大數(shù)據(jù)專業(yè)技術(shù)人才的培養(yǎng),為國(guó)家輸出有創(chuàng)新能力和實(shí)踐能力的高端人才,推進(jìn)“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”?! 〈蛟煲粋€(gè)數(shù)據(jù)分享、數(shù)據(jù)管理、數(shù)據(jù)建模與數(shù)據(jù)分析的在線大數(shù)據(jù)云平臺(tái),匯聚企事業(yè)單位、政府機(jī)構(gòu)和高校的大數(shù)據(jù)需求。大賽分為“大數(shù)據(jù)創(chuàng)新程
4、序大賽”和 “大數(shù)據(jù)創(chuàng)意應(yīng)用大賽”,吸引一群有志于大數(shù)據(jù)技術(shù)與研究的數(shù)據(jù)工作愛(ài)好者,通過(guò)“眾包”模式,利用數(shù)據(jù)分析方法以及大數(shù)據(jù)創(chuàng)新創(chuàng)意應(yīng)用原型系統(tǒng)分析數(shù)據(jù) 價(jià)值、針對(duì)問(wèn)題求解。,海量數(shù)據(jù),至高榮譽(yù),百萬(wàn)獎(jiǎng)金,權(quán)威專家,“中國(guó)好創(chuàng)意”,賽事介紹,,,賽事介紹-大賽類型,賽題提供所涉及的數(shù)據(jù)和明確的評(píng)價(jià)指標(biāo),制定在線評(píng)價(jià)程序。參賽團(tuán)隊(duì)通過(guò)大賽官方平臺(tái)直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動(dòng)打分,在線排名(A+B榜)。,賽題提供數(shù)據(jù)或參賽者
5、自行獲取數(shù)據(jù)和開(kāi)放式問(wèn)題。參賽團(tuán)隊(duì)自由設(shè)計(jì)創(chuàng)意應(yīng)用,提供完整解決方案(例如:方案策劃書、原型系統(tǒng)、應(yīng)用程序、相關(guān)說(shuō)明文檔等),通過(guò)大賽官方平臺(tái)提交解決方案包。專家線上打分,公布排行榜。,大數(shù)據(jù)創(chuàng)新程序大賽,大數(shù)據(jù)創(chuàng)意應(yīng)用大賽,,,賽事介紹-比賽規(guī)則,,,賽事介紹-比賽規(guī)則,算法類,應(yīng)用類,排行榜,2015,2016,,,賽事介紹-主體賽程,,,賽事介紹-賽題簡(jiǎn)介,賽題提供所涉及的數(shù)據(jù)和明確的評(píng)價(jià)指標(biāo),制定在線評(píng)價(jià)程序。參賽團(tuán)隊(duì)通過(guò)大賽
6、官方平臺(tái)直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動(dòng)打分,在線排名(A+B榜)。,賽題提供所涉及的數(shù)據(jù)和明確的評(píng)價(jià)指標(biāo),制定在線評(píng)價(jià)程序。參賽團(tuán)隊(duì)通過(guò)大賽官方平臺(tái)直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動(dòng)打分,在線排名(A+B榜)。,,,賽事介紹-賽題簡(jiǎn)介,本題提供了100萬(wàn)名隨機(jī)用戶在六個(gè)月內(nèi)的廣告曝光和點(diǎn)擊日志,包括廣告監(jiān)測(cè)點(diǎn)數(shù)據(jù)。參賽者需要預(yù)測(cè)每個(gè)用戶在下一周的時(shí)間內(nèi)是否會(huì)在各監(jiān)測(cè)點(diǎn)上發(fā)生點(diǎn)擊行為。以提供指導(dǎo)廣告主進(jìn)行定向廣告投放和優(yōu)化
7、的方向。,本題依據(jù)歷史票房數(shù)據(jù)、影評(píng)數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公眾數(shù)據(jù),從題材、內(nèi)容、導(dǎo)演、演員、編輯、發(fā)行方等等影響電影票房的因素入手,借助大數(shù)據(jù)對(duì)電影市場(chǎng)進(jìn)行分析,設(shè)計(jì)電影票房預(yù)測(cè)系統(tǒng),指導(dǎo)電影制作。,,,賽事介紹-賽題簡(jiǎn)介,本題根據(jù)行業(yè)訴求,要求參賽者以移動(dòng)運(yùn)營(yíng)商記錄的用戶位置信息,以及相關(guān)的用戶標(biāo)簽信息(性別、年齡、偏好等)數(shù)據(jù)為基礎(chǔ),基于用戶位置信息,設(shè)想其應(yīng)用場(chǎng)景,或分析利用位置信息如何創(chuàng)新現(xiàn)有的商業(yè)模式。,本題要求參賽者利用運(yùn)
8、營(yíng)商用戶數(shù)據(jù),構(gòu)建算法模型,測(cè)試驗(yàn)證,形成可行的完整的互聯(lián)網(wǎng)金融領(lǐng)域內(nèi)的創(chuàng)意數(shù)據(jù)產(chǎn)品技術(shù)方案,可以是一個(gè)新的創(chuàng)意,也可以是現(xiàn)有問(wèn)題(如個(gè)人征信評(píng)估,可貸額度估算)新的解決方法。,,,賽事介紹-賽題簡(jiǎn)介,本題要求參賽者基于短信文本內(nèi)容,結(jié)合機(jī)器學(xué)習(xí)算法、大數(shù)據(jù)分,析準(zhǔn)確地、完整地識(shí)別出垃圾短信、正常短信。解決傳統(tǒng)的基于策略、關(guān)鍵詞等過(guò)濾手段,很多垃圾短信“逃脫”過(guò)濾到達(dá)手機(jī)終端的問(wèn)題。,本題基于當(dāng)前語(yǔ)音交互方式這種更大、更靈活、方便的體驗(yàn)
9、,要求參賽者針對(duì)聽(tīng)報(bào)告、語(yǔ)音對(duì)話、交互查詢等這些語(yǔ)音直接溝通的語(yǔ)言表述進(jìn)行分析、轉(zhuǎn)換、查詢獲得最終結(jié)果反饋給使用者。,,,賽事介紹-賽題簡(jiǎn)介,本題基于法律判決文書中包含的大量的涉案金額細(xì)項(xiàng),要求參賽者提取文書中的費(fèi)用類型以及具體的金額。 判決書,法律術(shù)語(yǔ),是指法院根據(jù)判決寫成的文書,是法律界常用的一種應(yīng)用寫作文體。,本題基于京東服裝品類的50萬(wàn)商品主圖以及對(duì)應(yīng)的三級(jí)分類,要求參賽者根據(jù)商品圖片,對(duì)圖像進(jìn)行計(jì)算處理,預(yù)測(cè)商品所屬的三級(jí)分類
10、。以達(dá)到通過(guò)提取京東商品圖像特征,提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。,,,賽事介紹-賽題簡(jiǎn)介,本題可抽象為字符串的匹配、查找問(wèn)題。人的基因序列和細(xì)菌的序列可看做一組長(zhǎng)的字符串(A),而待檢測(cè)個(gè)體的數(shù)據(jù)是一個(gè)短字符串的集合(B)。需要確定字符串集合B中的字符串能夠同字符串集合A中哪些字符串匹配。,精確的語(yǔ)義分析是大數(shù)據(jù)必備技術(shù),在分析句子時(shí),不同句式即使用類似的關(guān)鍵詞,表達(dá)的含義和有很大差別,特別是在情感判斷中,更需要精準(zhǔn)判斷
11、關(guān)鍵詞的作用。本題要求參賽者能夠準(zhǔn)確地推斷出一個(gè)句子的句式。,本題要求參賽者對(duì)提供的各級(jí)地址文本完整、準(zhǔn)確地識(shí)別。通過(guò)對(duì)地址進(jìn)行標(biāo)準(zhǔn)化的處理,使基于地址的多維度量化挖掘分析成為可能,為不同場(chǎng)景模式下的電子商務(wù)應(yīng)用挖掘提供了更加豐富的方法和手段。,,,賽事介紹-大賽導(dǎo)師,,,賽事介紹-大賽評(píng)委,“中國(guó)好創(chuàng)意”,往屆大賽回顧,,,往屆大賽回顧,,,,,,,,,,,2013年,4個(gè)企業(yè),5道賽題,2014年,7個(gè)企業(yè),7道賽題,關(guān)鍵詞行業(yè)分類
12、(百度)電信網(wǎng)絡(luò)尋呼黑洞分析(中國(guó)移動(dòng))電信用戶交往圈構(gòu)建和特定類型用戶識(shí)別(中國(guó)移動(dòng))用戶購(gòu)買行為的歸因分析(秒針)基于出租車GPS軌跡的位置服務(wù)(數(shù)據(jù)堂),百度大數(shù)據(jù)創(chuàng)意應(yīng)用 (百度)用戶瀏覽新聞的模式分析及個(gè)性化新聞推薦(百分點(diǎn))系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測(cè) (海量)基于人物的相關(guān)網(wǎng)絡(luò)視頻挖掘 (中科云網(wǎng))基于互聯(lián)網(wǎng)大數(shù)據(jù)的日志類應(yīng)用處理 (南大通用)電商消費(fèi)行為預(yù)測(cè) (思明)多媒體展示廣告點(diǎn)擊率預(yù)
13、估 (騰訊),,,往屆大賽回顧,,,,,,,,約1760人,660支,所有985高校大部分211高校10所境外高校,約2800人,888支,所有985高校大部分211高校3所境外高校46家企業(yè)或政府機(jī)構(gòu)20多支自由組合隊(duì)伍,,總?cè)藬?shù),隊(duì)伍總數(shù),隊(duì)伍分布,總?cè)藬?shù),隊(duì)伍總數(shù),隊(duì)伍分布,2013年,2014年,境外高校:倫敦大學(xué)院、澳門科技大學(xué)、紐約州立大學(xué)Buffalo分校、卡耐基梅隆大學(xué)、佐治亞理工學(xué)院、香港大學(xué)、香港理工大
14、學(xué)、香港科技大學(xué)、南洋理工大學(xué)、密蘇里哥倫比亞大學(xué),境外高校:麻省理工學(xué)院、喬治華盛頓大學(xué)、香港科技大學(xué)企業(yè)或政府機(jī)構(gòu):百度、京東、攜程、新浪微博、西門子、神龍汽車、中國(guó)國(guó)防科技信息中心等,,,,,,,用戶瀏覽新聞的模式分析及個(gè)性化新聞推薦,,電信用戶交往圈構(gòu)建和特定類型用戶識(shí)別,,基于出租車GPS軌跡的位置服務(wù),,系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測(cè),,,往屆大賽回顧-TOP5,,百度大數(shù)據(jù)創(chuàng)意及應(yīng)用,13.69%,13.31
15、%,9.48%,12.41%,10.13%,,,,往屆大賽回顧,,,,往屆大賽回顧,“中國(guó)好創(chuàng)意”,參賽技巧,,,參賽技巧,且慢動(dòng)手,好好咀嚼題目,,,參賽技巧,我們比的是什么?——評(píng)價(jià)函數(shù),評(píng)價(jià)函數(shù)影響其他兩者,如果損失函數(shù)是最小絕對(duì)差,如果損失函數(shù)是最小方差,特定模型只對(duì)特定損失函數(shù)最優(yōu),,,參賽技巧,先跟數(shù)據(jù)培養(yǎng)感情,數(shù)據(jù)競(jìng)賽的目標(biāo):overspecialization without overfitting算法為數(shù)據(jù)而生實(shí)
16、用性是次要的(但也有時(shí)候是主要因素)用可視化工具為數(shù)據(jù)畫像,用可視化分析工具熱身有anomaly/outlier嗎?有明顯的規(guī)律嗎?可以簡(jiǎn)化問(wèn)題嗎?了解領(lǐng)域知識(shí)數(shù)據(jù)科學(xué)家=分析技術(shù)+領(lǐng)域知識(shí)+數(shù)據(jù)直覺(jué),,,參賽技巧,兩份數(shù)據(jù),兩個(gè)排行榜,Public data (一般25-33% of total test data)Public leaderboard 實(shí)時(shí)排行榜Private data (其余數(shù)據(jù),for final
17、 score)保證最精確、同時(shí)有足夠泛化的model獲勝Private leaderboard 決定最終名次有時(shí)候有三份數(shù)據(jù)如Netflix Prize:training, test, quiz,,,參賽技巧,尋找相關(guān)工作,Kaggle可能已經(jīng)有相似的競(jìng)賽Tutorial,得勝者經(jīng)驗(yàn)之談,如 http://blog.kaggle.com/category/dojo/論文,開(kāi)源代碼,技術(shù)文章聯(lián)系作者到論壇尋寶,提問(wèn)活
18、躍論壇,如 https://www.kaggle.com/forums/f/15/kaggle-forum本大賽論壇,,,參賽技巧,準(zhǔn)備工具和本地環(huán)境,R,Python,SQL,Java,……選擇最拿手的提交環(huán)境支持Kaggle R Tutorial on Machine Learning建立本地環(huán)境,,,參賽技巧,不要把模型想得太復(fù)雜,往往一些基礎(chǔ)模型就很好到MOOC上好好溫習(xí)一下基礎(chǔ),如 https://www.cou
19、rsera.org/learn/machine-learning 特征工程:重中之重采用原始特征,利用領(lǐng)域知識(shí)選擇golden features自動(dòng)方法(如PCA,深度學(xué)習(xí))或者采用復(fù)雜的黑盒模型,,,參賽技巧,避免Overfitting,相比訓(xùn)練數(shù)據(jù)規(guī)模,模型不能過(guò)于復(fù)雜過(guò)多的提交可能導(dǎo)致overfittingCross-validation,,,參賽技巧,Ensemble:終極絕招,眾愚成智:很多模型加起來(lái)能夠提高
20、泛化能力,尤其是針對(duì)復(fù)雜的問(wèn)題人多未必力量大:精心挑選模型的組合使候選模型間相關(guān)性弱作為最后一步一些技巧http://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p1.htmlhttp://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p2.h
21、tml,,,參賽技巧,In each competition I learn a bit more from the winners. A competition is not won by one insight, usually it is won by several careful steps towards a good modelling approach. Everything play it
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國(guó)癡呆指南v3
- 無(wú)線設(shè)備培訓(xùn)v3
- 審判達(dá)爾文(gb )v3
- 載體構(gòu)建流程v3
- 支付寶城市服務(wù)商協(xié)議v3全國(guó)
- 中國(guó)校園網(wǎng)的通病
- 中國(guó)校園文學(xué)網(wǎng)
- ccaa認(rèn)證人員注冊(cè)與管理系統(tǒng)v3 - 中國(guó)質(zhì)量 中國(guó) …
- 全國(guó)校園足球特色學(xué)校匯報(bào)材料
- 多益網(wǎng)絡(luò)2018春季全國(guó)校園招聘
- 2017年中航物業(yè)對(duì)外宣傳關(guān)鍵詞v3
- 簡(jiǎn)要操作手冊(cè)(v3)
- v3雙活實(shí)施方案
- oa項(xiàng)目需求調(diào)研報(bào)告v3
- v3雙活實(shí)施方案
- 中國(guó)校園音樂(lè)榜 招商方案
- 全國(guó)校園籃球特色學(xué)校基本標(biāo)準(zhǔn)
- 全國(guó)校園足球特色學(xué)校基本標(biāo)準(zhǔn)(試行)
- 海爾集團(tuán)專業(yè)能力辭典_v3(研發(fā))
- 紫旭錄播系統(tǒng)整體介紹v3
評(píng)論
0/150
提交評(píng)論