歷年KDD Cup數(shù)據(jù)集

【2010】
Student performance evaluation

賽題介紹
根據(jù)智能教學(xué)輔導(dǎo)系統(tǒng)和學(xué)生之間的交互日志,來(lái)預(yù)測(cè)學(xué)生數(shù)學(xué)題的考試成績(jī)。該任務(wù)兼具實(shí)踐重要性和科學(xué)趣味性。競(jìng)賽提供3個(gè)開發(fā)(develop)數(shù)據(jù)集和2個(gè)挑戰(zhàn)(challenge)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又分為訓(xùn)練(train)部分和測(cè)試(test)部分。Challenge數(shù)據(jù)集的test部分被隱藏,參賽者需要開發(fā)一種學(xué)習(xí)模型,來(lái)準(zhǔn)確預(yù)測(cè)這部分隱藏部分的成績(jī)。

大賽官網(wǎng)介紹
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro

大賽數(shù)據(jù)集
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data

【2011】

Predict music ratings and identify favorite songs

賽題介紹

Track1任務(wù):Predicting scores that users gave to various items
(音樂(lè)評(píng)分預(yù)測(cè))

根據(jù)用戶在雅虎音樂(lè)上item的歷史評(píng)分記錄,來(lái)預(yù)測(cè)用戶對(duì)其他item(包括歌曲、專輯等)的評(píng)分和實(shí)際評(píng)分之間的差異RMSE(最小均方誤差)。同時(shí)提供的還有歌曲所屬的專輯、歌手、曲風(fēng)等信息

Track2任務(wù):Separation of loved songs from other songs
(識(shí)別音樂(lè)是否被用戶評(píng)分)

每個(gè)用戶提供6首候選的歌曲,其中3首為用戶已評(píng)分?jǐn)?shù)據(jù),另3首是該用戶未評(píng)分,但是出自用戶中整體評(píng)分較高的歌曲。歌曲的屬性信息(專輯、歌手、曲風(fēng)等)也同樣提供。參賽者給出二分分類結(jié)果(0/1分類),并根據(jù)整體準(zhǔn)確率計(jì)算最終排名

該賽題官方已下線,無(wú)數(shù)據(jù)集下載

【2012】

賽題介紹

Track1任務(wù):Predict which users(or information sources) one user might follow in Tencent
(社交網(wǎng)絡(luò)中的個(gè)性化推薦系統(tǒng))

根據(jù)騰訊微博中的用戶屬性(User Profile)、SNS社交關(guān)系、在社交網(wǎng)絡(luò)中的互動(dòng)記錄(retweet、comment、at)等,以及過(guò)去30天內(nèi)的歷史item推薦記錄,來(lái)預(yù)測(cè)接下來(lái)最有可能被用戶接受的推薦item列表

大賽官網(wǎng)介紹
https://www.kaggle.com/c/kddcup2012-track1#description

大賽數(shù)據(jù)集
https://www.kaggle.com/c/kddcup2012-track1/data

Track2任務(wù):Predict the click-through rate of ads given the query and user information
(搜索廣告系統(tǒng)的pTCR點(diǎn)擊率預(yù)估)

提供用戶在騰訊搜索的查詢?cè)~(query)、展現(xiàn)的廣告信息(包括廣告標(biāo)題、描述、url等),以及廣告的相對(duì)位置(多條廣告中的排名)和用戶點(diǎn)擊情況,以及廣告主和用戶的屬性信息,來(lái)預(yù)測(cè)后續(xù)時(shí)間用戶對(duì)廣告的點(diǎn)擊情況

大賽官網(wǎng)介紹
https://www.kaggle.com/c/kddcup2012-track2#description

大賽數(shù)據(jù)集
https://www.kaggle.com/c/kddcup2012-track2/data

【2013】

賽題介紹

Track1任務(wù):Author-Paper Identification Challenge

微軟學(xué)術(shù)搜索是一個(gè)開放的平臺(tái),它涵蓋了各種學(xué)術(shù)領(lǐng)域超過(guò)5000萬(wàn)的出版物和1900多萬(wàn)作者,并保持著每周更新的速度。提供這項(xiàng)服務(wù)的主要挑戰(zhàn)之一是作者名稱的歧義。一方面,很多作者傾向于使用不同的筆名。另一方面,不同的作者可能有一個(gè)相似甚至相同的名字。
因此,名字有歧義的作者往往會(huì)導(dǎo)致作品與作者對(duì)應(yīng)問(wèn)題。本屆挑戰(zhàn)要求參與者能在作者檔案中識(shí)別出本人所著論文。

大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge

大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-chal
lenge/data

Track2任務(wù):Author Disambiguation Challenge

本屆挑戰(zhàn)要求參與者能在數(shù)據(jù)集中辨別出哪些作者是同一個(gè)人。

大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation

大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data

【2014 -- Predicting Excitement at DonorsChoose.org】

賽題介紹
KDD Cup2014要求參賽者幫助慈善網(wǎng)站DonorsChoose.org挑選有商業(yè)亮點(diǎn)的項(xiàng)目,所有項(xiàng)目都能滿足某些特定需求,但是只有個(gè)別項(xiàng)目能大幅度超過(guò)平均水準(zhǔn)。通過(guò)早期識(shí)別和推薦這些項(xiàng)目,他們能夠獲得更多的資金注入、更好的用戶體驗(yàn),同時(shí)幫助更多的學(xué)生獲得他們需要的學(xué)習(xí)材料。

大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose

大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose/data

【2015 -- Predicting dropouts in MOOC】

賽題介紹
MOOC在線學(xué)習(xí)平臺(tái)上學(xué)生的逃課率極高,因此預(yù)測(cè)他們接下來(lái)是否會(huì)選擇逃課將對(duì)保持和激勵(lì)學(xué)生的學(xué)習(xí)積極性十分有益。在KDD Cup 2015,我們的主題在于預(yù)測(cè)學(xué)生在學(xué)堂在線這個(gè)全中國(guó)最大幕課平臺(tái)中的逃課率。參賽者需要基于用戶個(gè)人行為預(yù)測(cè)接下來(lái)10天內(nèi)他們的逃課幾率。

大賽官網(wǎng)介紹
http://www.kddcup2015.com/information.html

大賽數(shù)據(jù)集
http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/

【2016】

Whose papers are accepted the most: towards measuring the impact of research institutions

賽題介紹
KDD Cup 2016將使用各類公開數(shù)據(jù)集,例如微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG),它將文獻(xiàn)的發(fā)表和引用信息組織成異構(gòu)圖的形式,這樣就可以挖掘圖中具有影響力的作者、機(jī)構(gòu)和地點(diǎn)等。該競(jìng)賽關(guān)注于學(xué)術(shù)機(jī)構(gòu)的影響力識(shí)別。參賽者需要合力開發(fā)出一種基于文獻(xiàn)發(fā)表和引用信息圖譜的算法,挖掘在特定領(lǐng)域內(nèi)最優(yōu)秀的研究機(jī)構(gòu)。

大賽官網(wǎng)介紹
http://www.kdd.org/kdd-cup/view/kdd-cup-2016

大賽數(shù)據(jù)集
http://www.kdd.org/kdd-cup/view/kdd-cup-2016/Data

【2017】
Highway Tollgates Traffic Flow Prediction

賽題介紹
高速公路收費(fèi)站是交通網(wǎng)絡(luò)中眾所周知的瓶頸。如果可以提前預(yù)測(cè)接下來(lái)一小時(shí)的交通擁堵?tīng)顩r,那么交通管理部門可以及時(shí)采取措施進(jìn)行上游路口的流量誘導(dǎo)和控制。KDD CUP 2017希望參賽者可以設(shè)計(jì)一套預(yù)測(cè)交通流量和車輛到達(dá)時(shí)間的算法,用算法和數(shù)據(jù)來(lái)賦能交通領(lǐng)域,減少擁堵的發(fā)生。

Task 1: To estimate the average travel time from designated intersections to tollgates(預(yù)測(cè)車輛從路口到收費(fèi)站的平均用時(shí))

Task 2: To predict average tollgate traffic volume(高速收費(fèi)站車流量預(yù)測(cè))

大賽官網(wǎng)(點(diǎn)擊閱讀原文可直達(dá))
https://tianchi.shuju.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.sQJkNz&raceId=231597

repost from : https://mp.weixin.qq.com/s?__biz=MzI0NTE4NjA0OQ==&mid=2658354512&idx=1&sn=8b8781e2474fcd45e610a9b47bcb0c99

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容