【2010】
Student performance evaluation
賽題介紹
根據(jù)智能教學(xué)輔導(dǎo)系統(tǒng)和學(xué)生之間的交互日志,來(lái)預(yù)測(cè)學(xué)生數(shù)學(xué)題的考試成績(jī)。該任務(wù)兼具實(shí)踐重要性和科學(xué)趣味性。競(jìng)賽提供3個(gè)開發(fā)(develop)數(shù)據(jù)集和2個(gè)挑戰(zhàn)(challenge)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集又分為訓(xùn)練(train)部分和測(cè)試(test)部分。Challenge數(shù)據(jù)集的test部分被隱藏,參賽者需要開發(fā)一種學(xué)習(xí)模型,來(lái)準(zhǔn)確預(yù)測(cè)這部分隱藏部分的成績(jī)。
大賽官網(wǎng)介紹
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro
大賽數(shù)據(jù)集
http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data
【2011】
Predict music ratings and identify favorite songs
賽題介紹
Track1任務(wù):Predicting scores that users gave to various items
(音樂(lè)評(píng)分預(yù)測(cè))
根據(jù)用戶在雅虎音樂(lè)上item的歷史評(píng)分記錄,來(lái)預(yù)測(cè)用戶對(duì)其他item(包括歌曲、專輯等)的評(píng)分和實(shí)際評(píng)分之間的差異RMSE(最小均方誤差)。同時(shí)提供的還有歌曲所屬的專輯、歌手、曲風(fēng)等信息
Track2任務(wù):Separation of loved songs from other songs
(識(shí)別音樂(lè)是否被用戶評(píng)分)
每個(gè)用戶提供6首候選的歌曲,其中3首為用戶已評(píng)分?jǐn)?shù)據(jù),另3首是該用戶未評(píng)分,但是出自用戶中整體評(píng)分較高的歌曲。歌曲的屬性信息(專輯、歌手、曲風(fēng)等)也同樣提供。參賽者給出二分分類結(jié)果(0/1分類),并根據(jù)整體準(zhǔn)確率計(jì)算最終排名
該賽題官方已下線,無(wú)數(shù)據(jù)集下載
【2012】
賽題介紹
Track1任務(wù):Predict which users(or information sources) one user might follow in Tencent
(社交網(wǎng)絡(luò)中的個(gè)性化推薦系統(tǒng))
根據(jù)騰訊微博中的用戶屬性(User Profile)、SNS社交關(guān)系、在社交網(wǎng)絡(luò)中的互動(dòng)記錄(retweet、comment、at)等,以及過(guò)去30天內(nèi)的歷史item推薦記錄,來(lái)預(yù)測(cè)接下來(lái)最有可能被用戶接受的推薦item列表
大賽官網(wǎng)介紹
https://www.kaggle.com/c/kddcup2012-track1#description
大賽數(shù)據(jù)集
https://www.kaggle.com/c/kddcup2012-track1/data
Track2任務(wù):Predict the click-through rate of ads given the query and user information
(搜索廣告系統(tǒng)的pTCR點(diǎn)擊率預(yù)估)
提供用戶在騰訊搜索的查詢?cè)~(query)、展現(xiàn)的廣告信息(包括廣告標(biāo)題、描述、url等),以及廣告的相對(duì)位置(多條廣告中的排名)和用戶點(diǎn)擊情況,以及廣告主和用戶的屬性信息,來(lái)預(yù)測(cè)后續(xù)時(shí)間用戶對(duì)廣告的點(diǎn)擊情況
大賽官網(wǎng)介紹
https://www.kaggle.com/c/kddcup2012-track2#description
大賽數(shù)據(jù)集
https://www.kaggle.com/c/kddcup2012-track2/data
【2013】
賽題介紹
Track1任務(wù):Author-Paper Identification Challenge
微軟學(xué)術(shù)搜索是一個(gè)開放的平臺(tái),它涵蓋了各種學(xué)術(shù)領(lǐng)域超過(guò)5000萬(wàn)的出版物和1900多萬(wàn)作者,并保持著每周更新的速度。提供這項(xiàng)服務(wù)的主要挑戰(zhàn)之一是作者名稱的歧義。一方面,很多作者傾向于使用不同的筆名。另一方面,不同的作者可能有一個(gè)相似甚至相同的名字。
因此,名字有歧義的作者往往會(huì)導(dǎo)致作品與作者對(duì)應(yīng)問(wèn)題。本屆挑戰(zhàn)要求參與者能在作者檔案中識(shí)別出本人所著論文。
大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-challenge
大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2013-author-paper-identification-chal
lenge/data
Track2任務(wù):Author Disambiguation Challenge
本屆挑戰(zhàn)要求參與者能在數(shù)據(jù)集中辨別出哪些作者是同一個(gè)人。
大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation
大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data
【2014 -- Predicting Excitement at DonorsChoose.org】
賽題介紹
KDD Cup2014要求參賽者幫助慈善網(wǎng)站DonorsChoose.org挑選有商業(yè)亮點(diǎn)的項(xiàng)目,所有項(xiàng)目都能滿足某些特定需求,但是只有個(gè)別項(xiàng)目能大幅度超過(guò)平均水準(zhǔn)。通過(guò)早期識(shí)別和推薦這些項(xiàng)目,他們能夠獲得更多的資金注入、更好的用戶體驗(yàn),同時(shí)幫助更多的學(xué)生獲得他們需要的學(xué)習(xí)材料。
大賽官網(wǎng)介紹
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose
大賽數(shù)據(jù)集
https://www.kaggle.com/c/kdd-cup-2014-predicting-excitement-at-donors-choose/data
【2015 -- Predicting dropouts in MOOC】
賽題介紹
MOOC在線學(xué)習(xí)平臺(tái)上學(xué)生的逃課率極高,因此預(yù)測(cè)他們接下來(lái)是否會(huì)選擇逃課將對(duì)保持和激勵(lì)學(xué)生的學(xué)習(xí)積極性十分有益。在KDD Cup 2015,我們的主題在于預(yù)測(cè)學(xué)生在學(xué)堂在線這個(gè)全中國(guó)最大幕課平臺(tái)中的逃課率。參賽者需要基于用戶個(gè)人行為預(yù)測(cè)接下來(lái)10天內(nèi)他們的逃課幾率。
大賽官網(wǎng)介紹
http://www.kddcup2015.com/information.html
大賽數(shù)據(jù)集
http://data-mining.philippe-fournier-viger.com/the-kddcup-2015-dataset-download-link/
【2016】
Whose papers are accepted the most: towards measuring the impact of research institutions
賽題介紹
KDD Cup 2016將使用各類公開數(shù)據(jù)集,例如微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG),它將文獻(xiàn)的發(fā)表和引用信息組織成異構(gòu)圖的形式,這樣就可以挖掘圖中具有影響力的作者、機(jī)構(gòu)和地點(diǎn)等。該競(jìng)賽關(guān)注于學(xué)術(shù)機(jī)構(gòu)的影響力識(shí)別。參賽者需要合力開發(fā)出一種基于文獻(xiàn)發(fā)表和引用信息圖譜的算法,挖掘在特定領(lǐng)域內(nèi)最優(yōu)秀的研究機(jī)構(gòu)。
大賽官網(wǎng)介紹
http://www.kdd.org/kdd-cup/view/kdd-cup-2016
大賽數(shù)據(jù)集
http://www.kdd.org/kdd-cup/view/kdd-cup-2016/Data
【2017】
Highway Tollgates Traffic Flow Prediction
賽題介紹
高速公路收費(fèi)站是交通網(wǎng)絡(luò)中眾所周知的瓶頸。如果可以提前預(yù)測(cè)接下來(lái)一小時(shí)的交通擁堵?tīng)顩r,那么交通管理部門可以及時(shí)采取措施進(jìn)行上游路口的流量誘導(dǎo)和控制。KDD CUP 2017希望參賽者可以設(shè)計(jì)一套預(yù)測(cè)交通流量和車輛到達(dá)時(shí)間的算法,用算法和數(shù)據(jù)來(lái)賦能交通領(lǐng)域,減少擁堵的發(fā)生。
Task 1: To estimate the average travel time from designated intersections to tollgates(預(yù)測(cè)車輛從路口到收費(fèi)站的平均用時(shí))
Task 2: To predict average tollgate traffic volume(高速收費(fèi)站車流量預(yù)測(cè))
大賽官網(wǎng)(點(diǎn)擊閱讀原文可直達(dá))
https://tianchi.shuju.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.sQJkNz&raceId=231597
repost from : https://mp.weixin.qq.com/s?__biz=MzI0NTE4NjA0OQ==&mid=2658354512&idx=1&sn=8b8781e2474fcd45e610a9b47bcb0c99