第二到泰迪华南杯数据挖掘竞赛试题

 
证明:1、参赛运动员可从下述试题中 任选一挥毫答,连在舆论报告中标明
2、 舆论等级见面综合考虑论文质量和 难度系数
 
试题一 小车压双黄线自动检测(难度系数:1.0)
压双黄线自动检测是通过对交通道路上的监督设备采集到的车正面图片进行拍卖,使用智能技术对车辆是否压双黄线实现自动检测,如果图1,实际视频图像见附件一_车压双黄线视频图像.zip。
 
希冀 1车压双黄线视频图像
呼吁基于机器视觉的车检测和跟踪技术,如果图像预处理技术、图像背景提取技术、多目标识别和跟踪技术等,针对道路监测系统中车辆压双黄线的视频图像进行拍卖和概括分析,从中得到所需要的事件、消息和数据,实现对道路上突发的车压双黄线交通事件进行实时检测,调减交管部门人工排查违章投入,连在第一时间内自动报警。
提醒:
1.监督视频分析可分为运动检测、目标分类、目标跟踪、目标作为描述等几乎只重要内容。
   〉移动检测:即使在各个幅中找到运动的对象。主题中由于多数情况下摄像机是固定不动的,所以背景在邻近的帧中没有变化,使用差分就可以概括地把背景标记出来。
   〉目标分类:视频中走的对象非常多,例如行人、汽车、自行车、动物。结构特征识别感兴趣的对象。
   〉目标跟踪:找出各帧中目标的涉及。例如证明第10帧中的目标A和程序11帧中的a凡是同一个目标,B和b凡是同一个,如果11帧中的c凡是新出现的对象。不能把b弄成了和A,或者a弄成了B。注意目标有可能在少数时候是一成不变的,例如车辆在双黄线上等候。在题目所为视频中,曾有把过双黄线的集聚的人群误识别为车辆的情况。如果以目标跟踪的分析,即使可以发现该目标在通过黄线前是由于多只面积较小的对象合并而成为的,在通过后又说明为多只小目标。
   〉目标作为描述:过去对的分析着得出车辆目标压线、回头、逆行等结论。
2.主题中摄像机机位固定,所以交通标志线以万象中的位置不变,可以人工标记出标志线所在的区域,下一场做打检测。
3.题材目标的扩大。如果上述各环节都较好地实现,还可以举行下面的主题分析:a)社会车辆进入公交专用线的检测。多城市划定了公交专用线,在加的时间段内社会车辆不得进入。能否构造有效的特征来分类特定时段间公交专用线(例如BRT专线、桥上的公交专用线等)外的公交车和社会车辆。b)车逆行检测 c)旅客检测。些微路段是禁止行人入内的,如果高架桥、高速公路等。当系统检测到发出旅客入内时报警。
4.视频数据的增补。参赛者可自行补充视频数据来检查算法。使用手机或数相机的摄影功能于人口实行天桥上拍摄车道内的景象,尽可能使用三脚架等装置固定摄像设备。在和向行驶的大多只车道内,转换车道是广大的情况,交规上对各种标志线(例如虚线、实线、允许单侧变换车道的底子线)发生明显规定,立即类视频比较容易拍摄。可以通过对易车道的检测来验证双黄线压线检测算法。迎接各位参赛者拍摄视频并达到传到QQ多中。对于本题,一个难点是应用不同的视频数据(不同时、光照、角度)来验证算法的沉稳性。
5.计算机实现。OpenCV(Open Source Computer Vision Library)凡是一个跨平台的计算机视觉库,在网上可以找到很多根据OpenCV的视频分析算法和代码,大家可以借鉴。
6.研究过程:追寻以往对该类问题的文献,研究如何对视频关键帧进行提取,再用算法模型对关键帧图像进行检测,所以识别压双黄线视频。
7.参考文献(啊不过使用google,华夏知网等活动查找):
   〉根据视频的脸检测和识别研究 吴培敏
   〉带识别系统的研究和实现 骆玉荣
 
试题二 面向网络舆情的关联度分析(难度系数:0.9)
 
网络舆情是靠在互联网上流行的对社会问题不同看法的网络舆论,凡是社会舆论的同种表现形式,凡是通过互联网传播的群众对实际生活中一些热点、关键问题所持的发生较强影响力、倾向性的言论和见解。
近来,网络舆情对政治生活秩序和社会安定的影响与日俱增,部分要的网络舆情事件使人们开始认识到网络对社会监督起到的伟大作用。并且,网络舆情突发事件使处理不当,最有可能诱发民众的差情绪,抓住群众的违规与过激行为,随即对社会安定形成严重威胁。
附件二_网络舆情数据.zip啊通过网络爬虫工具从某社区采集的网络舆情信息,呼吁基于关联度分析法,从资源集合中找出与用户信息.xls受到存在关联的用户,连进行关联度排序。
提醒:
1.主题意在通过研究,实现通过网络爬虫工具从一些社区采集的网络舆情信息和指定的用户进行关联度分析。由于用户的姓名、住址、身份证号、电话机号码、QQ号、E-mail、MSN相当信息和用户在着不同程度的涉及,舆论资源集合中这些信息的出现模式,啊间接的体现了资源和用户的涉及。
2.研究过程(只作参考):
(1)安装不同的权重,特色用户与其姓名、住址、身份证号、电话机号码、QQ号、E-mail、MSN相当信息的涉及规则;
(2)以用户的姓名、住址、身份证号、电话机号码、QQ号、E-mail、MSN相当信息定义为关键字;
(3)针对舆情资源进行中文分词;
(4)进行词频统计;
(5)用户及舆情资源的关联度分析。
3.参考文献(啊不过使用google,华夏知网等活动查找):
   〉网络舆情监控系统的实现方式。何佳
   〉中文网络客户评论中的产品特色挖掘方法研究。李实
 
试题三 装备维修信息数据挖掘(难度系数:0.8)
某个设备生产企业伴随着销量的增多,维修也在不断增多,乘时间的缓,尤其多的航空维修记录被存储到数据库中,当这些数据量积累到一定水平时,自然反映出有规律性的东西。
附件三_维修记录数据.zip啊从数据库中导出的近年的维修记录信息(由于数据量大,呼吁用Excel2007以上版本打开),呼吁参考有关文献和结合所学文化,针对本题所提供的设备维修信息数据进行挖掘分析,如果备件储备需求预测分析、跑在故障预警分析、易损件及由分析等方面进行探索分析,连对实现过程进行描述,以便为公司决定运营提供指导依据。
提醒:
1. 试题中提供了少类数据:客户购机信息和维修信息
2. 研究过程:
(1)根据市场级别、买商场、买价格、机型、产品型号等属性,但是对客户的花费行为和习惯进行分析;
(2)根据产品型号、故障原因代码、故障原因描述、体现问题描述等属性进行关联规则挖掘,依照支持度大小反映某型号设备出现的广泛故障现象。
(3)通过数据分析可了解设备故障的时间分布,可用之信息进一步做备件储备需求预测,如果根据“维修措施”受到“转换交流接触器”和相关时间信息,统计主要备件的时间分布,连最终实现备件的储备需求预测。
3.参考文献(啊不过使用google,华夏知网等活动查找):
   〉数据挖掘在设备状态预测中的应用浅析。胡洁,张珂珩
 
试题四 从基因表达数据中发现知识(难度系数:0.8)
基因微阵列技术的发明为基因表达的考试研究带来了同集革命,使得同时测定多只基因在多只试验条件下的发表值成为可能。基因表达数据可以看作一个N×M的矩阵,那个中行代表基因,排代表试验条件,如果矩阵中每个元素值代表一个基因在一个试验条件下的发表水平。
基因表达数据的分析已经成为一个热门话题,如果聚类是其中同样种民俗的分析工具,该方法根据基因在有考试条件下的发表值,根据基因间的相似性将基因分成互不重叠的簇,所以发现有明显生物意义的模式。但是,大部分的基因都只在部分试验条件下是共同调节的,风的集聚类方法无法找到这些模式,所以,双聚仿佛方法在近几年内吃广大关注,该方法同时对推行、排进行聚类,用于发现那些置在高维数据(如果基因表达数据)的分支空间中的簇。
依照试题的基因表达数据集由附件(表现附件四_酵母菌数据集.zip和附件五_乳腺癌数据集.zip)提供(啊可以通过在中原知网等电子文献数据库中寻找相关论文,再根据检索到的参考文献中有关说明,追寻并自行下载有科研意义的其他基因微阵列数据),呼吁用双聚仿佛算法对那进行挖掘分析,察觉有意义的生物信息。建议尽可能在多只基因阵列数据集上对不同方式的性质进行各种比较,连被来统计分析和生物意义解释。
提醒:
1.科研过程:追寻以往对该类问题的文献,探索如何利用双聚仿佛算法分析基因表达数据,根据问题和数量特点选择适宜的双聚仿佛模型(如果加法型,同演化型、OPSM双聚仿佛),实现自己的算法过程,连从各种角度对模型性能进行评价。
建议的参考文献(啊不过使用google,华夏知网等活动查找):
   〉Biclustering of expression data.  Y. Cheng and G. Church.
   〉Discovering local structure in gene expression data: The order-preserving submatrix problem. A. Ben-Dor, et al.
   〉A systematic comparison and evaluation of biclustering methods for gene expression data.
   〉Biclustering Algorithms for Biological Data Analysis:A Survey
   〉molecular classification of cancer:class_discovery and class prediction by gene expression monitoring
   〉根据双聚仿佛挖掘癌症共享的基因作用模块。 张凡
   〉根据离散时序基因表达数据的双聚仿佛算法。 许涛,尚学群,杨蜜静,王淼
   〉从基因表达数据中打最大的实行常量双集类。 缪苗
2.编程语言用C,Java,Matlab均可,源程序要让来算法流程图和非法代码,源代码需给来相应的诠释。
3.对于挖掘结果应从算法效率和应用意义上进行比较分析,连被来实验结果的图,并且尽量使用数据可视化技术,可以使用各种绘图软件如Matlab,Smartdraw相当。如果发生必要,应该对程序运行和数据分析的过程进行录屏并配音讲解,因为增强自己工作和收获的表现效果。
4.但是考虑选用某种数据结构(如果前缀树等)来存贮和迅速查找双聚仿佛的结果,实现对特别范围问题被偶集类数据进行实用的管理。
  建议的参考文献:
   〉Bicluster数据分析软件设计和实现
   〉生物信息学中的并行处理
5.啊增强算法的运行效率,但是考虑用某种编程模式,如云计算,彼此计算等。
  建议的参考文献(啊不过自行查找):
   〉《实战MATLAB的相程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的互相数据挖掘策略研究。 张敏
   〉基因表达数据的互相双向聚类算法。 刘维
   〉根据云平台的双向聚类算法在生物信息领域中的应用。 孙燕意外
6.基因表达式数据可以自动从网上下载,但是需要对数据格式和意义加以证实。
  数量网址例如:
   〉http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=43
   〉http://www.ncbi.nlm.nih.gov/geo/
   〉数量堂:http://www.datatang.com/
   〉UCI数量集http://archive.ics.uci.edu/ml/datasets.html
 
试题五 货币汇率(难度系数:0.8)
乘经济全球化的进步,各中的经济联系日益紧密。其中,分析各国货币汇率之间的联系对于分析各国中经济联系有着重要的意义,察觉在一定时期具有同等运动模式的货币有助于讲各国间的经济关系,啊各经济研究工作提供了指导作用,如果经济政策的制订,财务预测等等。
呼吁自行寻找一个包含若干只国家在几年内的货币汇率数据集,以数据挖掘技术应用于该数据集,连结合经济学知识对打结果进行详细合理的分析。
提醒:
1.科研过程:追寻以往对该类问题的相关文献,探索如何利用数据挖掘技术(如果聚类,双聚仿佛,涉及分析等)分析货币汇率数据,实现自己的算法过程,连从各种角度对模型性能进行评价。建议的参考文献(啊不过使用google,华夏知网等活动查找):
   〉Bicluster Analysis of Currency Exchange Rates. Haizhou Li , Hong Yan. 
   〉Discovery of time-inconsecutive co-movement patterns of foreign currencies using an evolutionary biclustering method. Qing-Hua Huang
   〉Multistage RBF neural network ensemble learning for exchange rates forecasting. Lean Yu.
2.数量集请自行从网上下载,连对自己下载的数据格式和意义加以证实。广泛的数量网址供参考:
   〉国家统计局网址:http://www.stats.gov.cn/tjsj/ndsj/
   〉广东省统计局网址:http://www.gdstats.gov.cn/tjsj/default.htm
   〉数量堂:http://www.datatang.com/
   〉UCI数量集http://archive.ics.uci.edu/ml/datasets.html
   〉华南师范大学图书馆所有数据库列表:
           http://lib.scnu.edu.cn/dzzy2/home_zy_search-nn.asp
其中的国泰安数据集和中经网统计数据库都是经济金融类的数量平台
3.编程语言用C,Java,Matlab均可,源程序要让来算法流程图和非法代码,源代码需给来相应的诠释。
4.结合经济学知识为来部分结论和建议,但是从算法效率和应用意义上进行比较分析,连被来实验结果的图,并且尽量使用数据可视化技术,可以使用各种绘图软件如Matlab,Smartdraw相当。如果发生必要,应该对程序运行和数据分析的过程进行录屏并配音,因为增强表现力。
5.但是考虑选用某种数据结构(如果前缀树等)来存贮和迅速查找结果,实现对特别范围问题中的结果数据进行实用的管理。建议的参考文献:
   〉Bicluster数据分析软件设计和实现
6.啊增强算法的运行效率,但是考虑用某种编程模式,如云计算,彼此计算等。建议的参考文献(啊不过自行查找):
   〉《实战MATLAB的相程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的互相数据挖掘策略研究。 张敏
 
试题六 智能推荐(难度系数:0.8)
乘互联网技术的快速提高,人人逐步走入了信息过载的时期。对大量的消息,我们还显得有些无所适从。作为信息需求者,从大量信中找到自己感兴趣的消息往往是同件非常困难的工作;如果对于信息提供者,被自己的消息脱颖而出,受到大家的关怀,啊是同件非常困难的工作。引进系统就是解决这同矛盾的重要工具。引进系统通过建立用户及信息产品中的涉及,使用已部分选择过程或相似性关系,一方面挖掘用户潜在感谢兴趣的消息,一方面让信息能够展现在对它感兴趣的用户面前。一个完整的推荐系统通常包含收集用户信息的行为记录模块,分析用户喜好的模子分析模块和引进算法模块。
我们身边最熟悉的事例要数电子商务网站的推荐系统,几乎每个大型电子商务网站都把个性化推荐作为重要的营销手段之一。再有文献表明早巴Amazon的35%销售增量都来它的推荐系统。除了商品,音乐、电影等为是广大的推荐对象。
呼吁自行下载Movie Lens数量集,连使用数据挖掘技术建立一个电影推荐系统。
提醒:
1.科研过程:追寻以往对该类问题的相关文献,针对引进系统的相关知识有所了解,探索如何利用数据挖掘技术(如果对集类、涉及分析等)构建一个电影推荐系统,实现自己的算法过程,连从各种角度对模型性能进行评价。建议的参考文献(啊不过使用google,华夏知网等活动查找):
   〉根据多目标优化双集类的数字图书馆共过滤推荐系统。刘飞飞
   〉根据双聚仿佛模型的共同过滤推荐引擎设计。康美林  
   〉根据关联规则的书籍销售网站个性化推荐系统设计与实现。王静
2.有关数据集的下载地址也:http://www.datatang.com/data/43893/,但是从中选择部分数据,连对自己下载的数据格式和意义加以证实。
3.编程语言用C,Java,Matlab均可,源程序要让来算法流程图和非法代码,源代码需给来相应的诠释。
4.对于挖掘结果应从算法效率和应用意义上进行比较分析,连尽量多的使用可视化技术,如果Matlab,Smartdraw相当。如果发生必要,应该对程序运行和数据分析的过程进行录屏并配音讲解,因为增强功能。
5.但是考虑选用某种数据结构(如果前缀树等)来存贮和迅速查找结果,实现对特别范围问题中的结果数据进行实用的管理。建议的参考文献:
   〉Bicluster数据分析软件设计和实现
6.啊增强算法的运行效率,但是考虑用某种编程模式,如云计算 ,彼此计算等。
  建议的参考文献(啊不过自行查找):
   〉《实战MATLAB的相程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的互相数据挖掘策略研究。 张敏
   〉根据云计算平台的智能推荐系统钻研。 吕雪骥

本次比赛的考题通过百度网盘下载,提取密码: ulkw  

  • 2014-05-14 16:19:26, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。大赛总共收到来自国内20多所大学的114卖参赛作品,由于高校和商店共同组成的评审专家组(杨坦、薛云、肖刚、刘晓勇、张良均)历时半月的评审,末了决出特等奖1卖、一等奖作品5卖、二等奖作品15卖、三等奖作品26卖、好论文奖作品64卖。
  • 2014-05-08 10:00:54, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。大赛总共收到来自国内20多所大学的114卖参赛作品,由于高校和商店共同组成的评审专家组(杨坦、薛云、肖刚、刘晓勇、张良均)历时半月的评审,末了决出特等奖1卖、一等奖作品5卖、二等奖作品15卖、三等奖作品26卖、好论文奖作品64卖。评奖结果考虑到了不同题目的难度系数。由于研究生队伍的论文质量大面积高于本科生队伍,特等奖及一、第二、三等奖中,舆论质量接近的,本科生队伍排名在前。
  • 2014-08-28 00:01:46, 本站原创
    乘我国互联网的快速发展,尤其是电子商务的急剧膨胀,消息过载问题需要解决,如果推荐系统是解决该问题的有用途径。个性化推荐系统通过收集用户的资料,预测用户可能感兴趣的货物,做出个性化的推荐服务,有良好的进步前景。
  • 2014-08-27 23:58:55, 本站原创
    乘市场竞争的逐步激烈,维修售后服务成为了商店的重要竞争能力之一。但是由于产品故障的不确定性使得备件需求难于预测,维修备件越来越多使得备件库存维护本不断增多。这些题材使得维修企业面临的承受加重。所以对产品的备件需求问题,本文利用某设备生产企业的维修数据记录,根据数据挖掘技术对不同型号的手机常见故障进行分析,所以为公司的设备储藏提供意见。
  • 2014-08-27 20:25:56, 本站原创
    智能交通系统(ITS)已经被科学家认为是解决目前城市交通问题最有效的方法,啊是目前和前途交通发展的主流方向。ITS的前提是取得交通道路的实时信息,依照车流量等。本文研究ITS受到因视频检测技术的车流量统计方法,针对所涉及的移动目标检测、背景提取、阴影去除以及车辆统计等主导技术进行了代码实现。
  • 2014-08-27 20:22:36, 本站原创
    乘互联网的普及,网络资源不断增长,用户经常会面迷路在大量的货物信息空间中,无法找到自己需要的货物。共同过滤算法应运而生,帮助顾客更好地选择商品。本文分析了基于用户的近年邻推荐算法、根据物品的近年邻推荐算法和slope one 算法的性质优劣,连在这个基础上使用Python的PP模块进行相互编程提高算法速度,并且为探讨了矩阵分解技术SVD针对引进算法的影响,末了用GUI计划实现推荐系统的中心构建。
  • 2014-08-27 20:20:40, 本站原创
    乘互联网技术的快速提高,人人逐步走入了信息过载的时期。对大量的消息,我们还显得有些无所适从。作为信息需求者,从大量信中找到自己感兴趣的消息往往是同件非常困难的工作;如果对于信息提供者,被自己的消息脱颖而出,受到大家的关怀,啊是同件非常困难的工作。引进系统就是解决这同矛盾的重要工具。引进系统通过建立用户及信息产品中的涉及,使用已部分选择过程或相似性关系,一方面挖掘用户潜在感谢兴趣的消息,一方面让信息能够展现在对它感兴趣的用户面前。
  • 2014-08-27 20:16:42, 本站原创
    乘电子商务的快速发展和普及应用,个性化推荐的推荐系统已成为一个要研究领域。个性化推荐算法是引进系统中最核心的技术,在很大程度达到决定了电子商务推荐系统性能的高低。共同过滤是应用最常见的同种个性化推荐技术。共同过滤主要分为基于用户的共同过滤和依据项目的共同过滤。
  • 2014-08-27 20:12:55, 本站原创
    网络舆情事件处理不当,见面吸引用户的过激行为。所以通过事件找出有关用户就可以从到一定的监督作用。本文先对用户提供的数量(用户信息和波)进行预处理,对于用户信息,拍卖身份证号,恢复成:性别,发证地,诞生年月日,下一场再事件去除,所以replace pioneer软件对html文件查找含QQ,手机,作者等关键字,下一场手动添加进excel里。针对txt文件中的事件标题进行中文分词处理。随即抽取含有用户信息各属性的事件,转折为“用户-事件-用户”的样式,使用clementine软件,分析说明的置信度和网络图直观性,得生
  • 2014-08-27 20:08:21, 本站原创
    乘互联网的快速提高,网络舆情对政治秩序秩序和社会安定产生正在不比寻常的意图,所以挖掘网络用户信息和网络舆情信息的关联度的过程意义重大。编辑java语言,在关键词词频统计的基础上,给予用户信息中的关键词赋予比重不同的权重,实现在网络舆情资料库中对web消息提取与关键词提取的效用。以用户信息中的关键词转化为向量A,向量的重量为对应的关键词的权重,并且使用二值法将网络舆情信息库中的网页转为向量B,向量的重量为对应关键词的出现与否,以向量B中的各分量分别就于相应的权重值,得向量C。呼吁向量A和向量C的余弦值并通过构建
  • 2014-08-27 17:31:29, 本站原创
    网络舆情信息的挖和监督,推动维护社会安定。为分析给定用户及舆情资源的关联度,首先用主成分分析法(AHP)取得用户的各个属性和用户中的涉及规则。随即对给定的舆论文档进行预处理和中文分词,在这个基础上,以用户各属性定义为关键词,使用TF*IDF宪章,全部历舆情文档计算关键词权重。再对各个舆情文档建立得分模型。
  • 2014-05-28 15:17:26, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。大赛总共收到来自国内20多所大学的114卖参赛作品,由于高校和商店共同组成的评审专家组历时半月的评审,末了决出特等奖1卖、一等奖作品5卖、二等奖作品15卖、三等奖作品26卖、好论文奖作品64卖。
  • 2014-02-19 11:05:46, 本站原创
    申请时间:2014年2月24日------2014年3月9日;比赛时间:2014年3月10日------2014年4月20日;评阅时间:2014年4月21日------2014年5月4日;颁奖时间:2014年5月6日------2014年5月18日
群众号
返回
顶部
呼吁关注“法定公众号”
Copyright © 2013-2017   威尼斯网站有限公司   技术支持   粤ICP都14098620号