老二届泰迪华南杯数据挖掘竞赛试题

 
表明:1、参赛运动员可从下述试题中 任选一题作答,并在舆论报告中标明
2、 舆论等级会综合考虑论文质量和 零度系数
 
题目一 小车压双黄线自动检测(零度系数:1.0)
压双黄线自动检测是通过对交通道路上的监察设备采集到的车子正面图片进行拍卖,利用智能技术对车辆是否压双黄线实现自动检测,如图1,切实视频图像见附件一_车辆压双黄线视频图像.zip。
 
贪图 1车辆压双黄线视频图像
请基于机器视觉的车子检测和跟踪技术,如图像预处理技术、图像背景提取技术、多目标识别与跟踪技术等,对道路监测体系中车辆压双黄线的视频图像进行拍卖和概括分析,从中得到所急需的风波、消息及数据,落实对道路上突发的车子压双黄线交通事件进行实时检测,调减交管部门人工排查违章投入,并在第一时间内自动报警。
指导:
1.监督视频分析可分为运动检测、目标列入、目标跟踪、目标作为描述等几个关键内容。
   〉活动检测:即在每帧中找到运动的对象。主题中由于多数情况下摄像机是固定不动的,据此背景在附近之帧中没有变化,运用差分就足以概括地把背景标记出来。
   〉目标列入:视频中运动的对象很多,例如行人、面包车、自行车、动物。组织特征识别感兴趣的对象。
   〉目标跟踪:找出各帧中目标的联系。例如证明第10帧中的目标A和程序11帧中的a是同一个目标,B和b是同一个,而11帧中的c是新出现的对象。决不能把b弄成了和A,或者a弄成了B。瞩目目标有可能在少数时候是一成不变的,例如车辆在双黄线上等候。在题目所送视频中,曾有把穿越双黄线的集聚的人流误识别为车辆的景象。如果采取目标跟踪的剖析,就足以发现该目标在通过黄线前是由多个面积较小的对象合并而成的,在通过后又说明为多个小目标。
   〉目标作为描述:以往面的剖析中得出车辆目标压线、回头、逆行等结论。
2.主题中摄像机机位固定,据此交通标志线在万象中的位置不变,可以人工标记出标志线所在的海域,接下来做碰撞检测。
3.题材目标的扩张。如果上述各环节都较好地落实,还可以做下面的主题分析:a)社会车辆进入公交专用线的探测。众多城市划定了公交专用线,在给定的时间段内社会车辆不得进入。是否构造有效的特性来分类特定时段间公交专用线(例如BRT全线、搭桥上的公交专用线等)内的面包车和社会车辆。b)车辆逆行检测 c)旅客检测。一部分路段是禁止行人入内的,如高架桥、铁路等。顶系统检测到有旅客入内时报警。
4.视频数据的补给。参赛者可自行补充视频数据来检查算法。运用手机或数码相机的拍摄功能在人口排天桥上拍摄车道内的状况,尽可能使用三脚架等装置固定摄像设备。在同向行驶的多个车道内,转换车道是周边的景象,交规上对各族标志线(例如虚线、实线、兴许单侧变换车道的底子线)有鲜明规定,这类视频比较容易拍摄。可以通过对转移车道的探测来检查双黄线压线检测算法。迎接各位参赛者拍摄视频并上流传至QQ队中。对于本题,一度难点是采用不同之视频数据(不同时间、照耀、强度)来检查算法的沉稳性。
5.电脑实现。OpenCV(Open Source Computer Vision Library)是一番跨平台的电脑视觉库,在楼上可以找到很多基于OpenCV的视频分析算法和代码,大家可以借鉴。
6.研讨过程:追寻以往针对该类问题的文献,研讨如何对视频关键帧展开提取,再用算法模型对关键帧图像进行监测,于是识别压双黄线视频。
7.参考文献(也可采取google,神州知网等自行查找):
   〉基于视频的面孔检测与识别研究 吴培敏
   〉安全带识别系统之研讨与实现 骆玉荣
 
题目二 面向网络舆情的角度分析(零度系数:0.9)
 
网络舆情是指在互联网上流行的对社会问题不同意见的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的民众对实际生活中一些热点、症结问题所持的有较强影响力、竞争性的发言和见解。
近年,网络舆情对政局存在秩序和社会安定的影响与日俱增,有的重大的网络舆情事件使人们开始认识到网络对社会监督起到的顶天立地作用。同时,网络舆情突发事件如果处理不当,极有可能诱发民众的不善情绪,引发群众之违纪和过激行为,进而对社会安定形成严重威胁。
公报二_网络舆情数据.zip为通过网络爬虫工具从某小区采集的网络舆情信息,请基于关联度分析法,其次自然资源集合中找到与用户信息.xls美方生存关联的客户,并开展关联度排序。
指导:
1.主题意在通过研讨,落实通过网络爬虫工具从一些社区采集的网络舆情信息与指定的客户进行关联度分析。出于用户之姓名、住址、会员证号、电话机号码、QQ号码、E-mail、MSN等信息与用户存在着不同档次的沟通,评论资源集合中那些信息的出现模式,也间接的汇报了货源与用户之沟通。
2.研讨过程(仅作参考):
(1)安装不同之权重,特色用户与其姓名、住址、会员证号、电话机号码、QQ号码、E-mail、MSN等信息的沟通规则;
(2)名将用户之姓名、住址、会员证号、电话机号码、QQ号码、E-mail、MSN等信息定义为关键字;
(3)对舆情资源进行中文分词;
(4)拓展词频统计;
(5)我家与舆情资源之角度分析。
3.参考文献(也可采取google,神州知网等自行查找):
   〉网络舆情监控体系之落实方式。何佳
   〉中文网络用户评论中的产品特色挖掘方法研究。李实
 
题目三 装备维修信息数据挖掘(零度系数:0.8)
某设备生产企业伴随着销量的充实,维修也在不断增长,随着岁月之延期,越来越多之飞行维修记录被存储到数据库中,顶这些数据量积累到一定水平时,必然反映出有针对性的东西。
公报三_维修记录数据.zip为主业数据库中导入的近年的检修记录信息(出于数据量大,请使用Excel2007上述版本打开),请参考有关文献及结合所学文化,对本题所提供的装备维修信息数据进行挖掘分析,如备件储备需求预测分析、潜在故障预警分析、易损件及原因分析等方面展开探索分析,并对实现过程进行描述,以便为企业决定运营提供指导依据。
指导:
1. 题目中提供了两类数据:他家购机信息和维修信息
2. 研讨过程:
(1)基于市场级别、购买商场、购买价格、机型、产品型号等属性,可对购买户的花费行为和习惯进行分析;
(2)基于产品型号、故障原因代码、故障原因描述、举报问题描述等属性进行沟通规则挖掘,按支持度大小反映某型号设备出现的普遍故障现象。
(3)穿过数据分析可了解设备故障的工夫分布,租用这个信息进一步做备件储备需求预测,如根据“维修措施”美方“转移交流接触器”及相关时间信息,统计主要备件的工夫分布,并最终实现备件的储备需求预测。
3.参考文献(也可采取google,神州知网等自行查找):
   〉数据挖掘在设备状态预测中的应用浅析。胡洁,张珂珩
 
题目四 其次基因表达数据中发现知识(零度系数:0.8)
基因微阵列技术之说明给基因表达的考试研究带来了一场革命,有效同时测定多个基因在多个试验条件下的表述值成为可能。基因表达数据可以看作一个N×M的矩阵,人家中行代表基因,趟代表试验条件,而矩阵中每篇元素值代表一个基因在一番试验条件下的表述水平。
基因表达数据的剖析已经化为一个热门话题,而聚类是其中一种民俗的剖析工具,该方法根据基因在整整考试条件下的表述值,基于基因间的风险性将基因分成互不重叠的簇,于是发现具有强烈生物意义之公式。然而,绝大多数之基因都只在一些试验条件下是协同调节的,风的聚类方法无法找到这些模式,故此,双聚类方法在近几年内受到广大关注,该方法同时对进、趟进行聚类,用于发现这些嵌入在高维数据(如基因表达数据)的子空间中的簇。
基金试题的基因表达数据集由附件(见附件四_酵母菌数据集.zip和附件五_强迫症数据集.zip)提供(也得以通过在神州知网等电子文献数据库中寻找相关论文,再论证检索到的参考文献中相关说明,追寻并自行下载有科研意义之任何基因微阵列数据),请利用双聚类算法对人家进行挖掘分析,意识有含义之古生物信息。提议尽可能在多个基因阵列数据集上对不同方式的性质进行各种比较,并送出统计分析和生物意义解释。
指导:
1.研制过程:追寻以往针对该类问题的文献,探索如何运用双聚类算法分析基因表达数据,根据问题和数量特点选择适合的双聚类模型(如加法型,一致演化型、OPSM双聚类),落实自己之解法过程,并从各种角度对模型性能进行评价。
提议的参考文献(也可采取google,神州知网等自行查找):
   〉Biclustering of expression data.  Y. Cheng and G. Church.
   〉Discovering local structure in gene expression data: The order-preserving submatrix problem. A. Ben-Dor, et al.
   〉A systematic comparison and evaluation of biclustering methods for gene expression data.
   〉Biclustering Algorithms for Biological Data Analysis:A Survey
   〉molecular classification of cancer:class_discovery and class prediction by gene expression monitoring
   〉基于双聚类挖掘癌症共享的基因作用模块。 张凡
   〉基于离散时序基因表达数据的双聚类算法。 许涛,尚学群,杨蜜静,王淼
   〉其次基因表达数据中开掘最大的排常量双聚类。 缪苗
2.编程语言用C,Java,Matlab均可,源程序要送出算法流程图和伪代码,源代码需给出应有的注解。
3.对于挖掘结果应从疗法效率及利用意义上开展比较分析,并送出实验结果的图形,同时尽量使用数据可视化技术,可以利用各种绘图软件如Matlab,Smartdraw等。如有必不可少,应当对程序运行和数据分析的历程进行录屏并配音讲解,以提高自己工作和收获的显示效果。
4.可考虑选用某种数据结构(如前缀树等)来存贮和飞跃查找双聚类的结果,落实对大范围问题中双聚类数据进行实用的治本。
  提议的参考文献:
   〉Bicluster数据分析软件设计与实现
   〉生物信息学中的并行处理
5.为加强算法的运作效率,可考虑采取某种编程模式,如云计算,并行计算等。
  提议的参考文献(也可自行查找):
   〉《实战MATLAB的并行程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的并行数据挖掘策略研究。 张敏
   〉基因表达数据的并行双向聚类算法。 刘维
   〉基于云平台的走向聚类算法在生物信息领域中的应用。 孙燕飞
6.基因表达式数据可以自动从楼上下载,但需要对数据格式和含义加以说明。
  多少网址例如:
   〉http://www.broad.mit.edu/cgi-bin/cancer/publications/pub_paper.cgi?mode=view&paper_id=43
   〉http://www.ncbi.nlm.nih.gov/geo/
   〉多少堂:http://www.datatang.com/
   〉UCI多少集http://archive.ics.uci.edu/ml/datasets.html
 
题目五 钞票汇率(零度系数:0.8)
随着经济区域化的前进,各级间的经济关系日益紧密。其中,剖析各国货币汇率之间的联络对于分析各国间经济关系有着至关重要的含义,意识在一定时期具有相同运动模式的纸币有助于解释各国之间的经济联系,为各项经济研究工作提供了指导作用,如经济方针的制订,税务预测等等。
请自行寻找一个包含若干个国家在若干年内的纸币汇率数据集,名将数据挖掘技术应用于该数据集,并组成经济学知识对挖掘结果进行详细合理的剖析。
指导:
1.研制过程:追寻以往针对该类问题的相关文献,探索如何运用数据挖掘技术(如聚类,双聚类,联系分析等)剖析货币汇率数据,落实自己之解法过程,并从各种角度对模型性能进行评价。提议的参考文献(也可采取google,神州知网等自行查找):
   〉Bicluster Analysis of Currency Exchange Rates. Haizhou Li , Hong Yan. 
   〉Discovery of time-inconsecutive co-movement patterns of foreign currencies using an evolutionary biclustering method. Qing-Hua Huang
   〉Multistage RBF neural network ensemble learning for exchange rates forecasting. Lean Yu.
2.多少集请自行从楼上下载,并对自己下载的数据格式和含义加以说明。广泛的多少网址供参考:
   〉江山情报局网址:http://www.stats.gov.cn/tjsj/ndsj/
   〉贵州省财政局网址:http://www.gdstats.gov.cn/tjsj/default.htm
   〉多少堂:http://www.datatang.com/
   〉UCI多少集http://archive.ics.uci.edu/ml/datasets.html
   〉港澳师范大学图书馆所有数据库列表:
           http://lib.scnu.edu.cn/dzzy2/home_zy_search-nn.asp
其中的国泰安数据集和中经网统计数据库都是经济金融类的多少平台
3.编程语言用C,Java,Matlab均可,源程序要送出算法流程图和伪代码,源代码需给出应有的注解。
4.重组经济学知识给出一部分结论和建议,可从算法效率及利用意义上开展比较分析,并送出实验结果的图形,同时尽量使用数据可视化技术,可以利用各种绘图软件如Matlab,Smartdraw等。如有必不可少,应当对程序运行和数据分析的历程进行录屏并配音,以提高竞争力。
5.可考虑选用某种数据结构(如前缀树等)来存贮和飞跃查找结果,落实对大范围问题中的结果数据进行实用的治本。提议的参考文献:
   〉Bicluster数据分析软件设计与实现
6.为加强算法的运作效率,可考虑采取某种编程模式,如云计算,并行计算等。提议的参考文献(也可自行查找):
   〉《实战MATLAB的并行程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的并行数据挖掘策略研究。 张敏
 
题目六 智能推荐(零度系数:0.8)
随着互联网技术之快速提高,人人逐渐走入了信息过载的时期。面对大量之消息,咱们都显得有些无所适从。表现信息需求者,其次大量信息中找到自己感兴趣的消息往往是一件非常拮据之作业;而对于信息提供者,让自己之消息脱颖而出,受到大家的关怀,也是一件非常拮据之作业。引进系统就是消灭这一矛盾的要害工具。引进系统通过建立用户和信息产品之间的联系,采用已部分选择过程或投机性关系,一派挖掘用户潜在感兴趣的消息,单让信息能够展现在对其它感兴趣的客户面前。一度完整的引进系统通常包含收集用户信息的所作所为记录模块,剖析用户喜好的模子分析模块和引进算法模块。
咱们身边最熟悉的例证要数电子商务网站的引进系统,几乎每个巨型电子商务网站都把个性化推荐作为首要的产销手段之一。更有文献表明早定期Amazon的35%兜售增量都来自它的引进系统。除了商品,音乐、影片等也是周边的引进对象。
请自行下载Movie Lens多少集,并行使数据挖掘技术建立一个电影推荐系统。
指导:
1.研制过程:追寻以往针对该类问题的相关文献,对引进系统之相关知识有所了解,探索如何运用数据挖掘技术(如双聚类、联系分析等)构建一个电影推荐系统,落实自己之解法过程,并从各种角度对模型性能进行评价。提议的参考文献(也可采取google,神州知网等自行查找):
   〉基于多目标优化双聚类的数字图书馆协同过滤推荐系统。刘飞飞
   〉基于双聚类模型的协同过滤推荐引擎设计。康美林  
   〉基于关联规则的书籍销售网站个性化推荐系统设计与实现。王静
2.相关数据集的下载地址为:http://www.datatang.com/data/43893/,可从中选择部分数据,并对自己下载的数据格式和含义加以说明。
3.编程语言用C,Java,Matlab均可,源程序要送出算法流程图和伪代码,源代码需给出应有的注解。
4.对于挖掘结果应从疗法效率及利用意义上开展比较分析,并尽量多之采用可视化技术,如Matlab,Smartdraw等。如有必不可少,应当对程序运行和数据分析的历程进行录屏并配音讲解,以提高功能。
5.可考虑选用某种数据结构(如前缀树等)来存贮和飞跃查找结果,落实对大范围问题中的结果数据进行实用的治本。提议的参考文献:
   〉Bicluster数据分析软件设计与实现
6.为加强算法的运作效率,可考虑采取某种编程模式,如云计算 ,并行计算等。
  提议的参考文献(也可自行查找):
   〉《实战MATLAB的并行程序设计》
   〉DisCo: Distributed Co-clustering with Map-Reduce. A Case Study Towards Petabyte-Scale End-to-End Mining.  Spiros Papadimitriou , Jimeng Sun.
   〉云计算环境下的并行数据挖掘策略研究。 张敏
   〉基于云计算平台的本能推荐系统钻研。 吕雪骥

此次比赛的问题通过百度网盘下载,提取密码: ulkw  

  • 2014-05-14 16:19:26, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。开赛总共收到来自国内20多所大学的114份参赛作品,由高校和商店共同组成的评审专家组(杨坦、薛云、肖刚、刘晓勇、张良均)历时半月的评审,最终决出特等奖1份、二等奖作品5份、一等奖作品15份、一等奖作品26份、优质论文奖作品64份。
  • 2014-05-08 10:00:54, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。开赛总共收到来自国内20多所大学的114份参赛作品,由高校和商店共同组成的评审专家组(杨坦、薛云、肖刚、刘晓勇、张良均)历时半月的评审,最终决出特等奖1份、二等奖作品5份、一等奖作品15份、一等奖作品26份、优质论文奖作品64份。评说结果考虑到了不同题目的灵敏度系数。出于研究生队伍的舆论质量大面积高于本科生队伍,二等奖及一、二、一等奖中,舆论质量接近的,本科生队伍排名在未来。
  • 2014-08-28 00:01:46, 本站原创
    随着我国互联网的飞速发展,尤其是电子商务的急剧膨胀,消息过载问题需要解决,而推荐系统是消灭该问题的得力途径。现代化推荐系统通过收集用户之史料,展望用户可能感兴趣的货物,做到个性化的引进服务,具有得天独厚的前进前景。
  • 2014-08-27 23:58:55, 本站原创
    随着市场竞争之日益激烈,维修服务成为了集团之要害竞争能力之一。然而由于产品故障的不确定性使得备件需求难于预测,维修备件越来越多使得备件库存维护本不断充实。那些题材使得维修企业面临的承负加重。故此针对产品的备件需求问题,本文利用某设备生产企业之检修数据记录,基于数据挖掘技术对不同型号的无绳电话机常见故障进行分析,于是为企业的装备储藏提供意见。
  • 2014-08-27 20:25:56, 本站原创
    智能交通系统(ITS)已经把艺术家认为是消灭目前城市交通问题最有效的章程,也是时下和前景交通发展之激流方向。ITS的大前提是拥有交通道路的暂时信息,比如车流量等。本文研究ITS美方基于视频检测技术之销量统计方法,对所涉及的活动目标检测、前景提取、阴影去除以及车辆统计等基本技术进行了代码实现。
  • 2014-08-27 20:22:36, 本站原创
    随着互联网的推广,网络资源不断增长,我家经常会迷路在大量之货物信息空间中,无法找到自己要求的货物。协同过滤算法应运而生,协助顾客更好地选择商品。本文分析了基于用户之近期邻推荐算法、基于物品的近期邻推荐算法和slope one 书法的性质优劣,并在此基础上使用Python的PP模块进行并行编程提高算法速度,同时也探讨了矩阵分解技术SVD对引进算法的影响,最终用GUI计划实现推荐系统之基本构建。
  • 2014-08-27 20:20:40, 本站原创
    随着互联网技术之快速提高,人人逐渐走入了信息过载的时期。面对大量之消息,咱们都显得有些无所适从。表现信息需求者,其次大量信息中找到自己感兴趣的消息往往是一件非常拮据之作业;而对于信息提供者,让自己之消息脱颖而出,受到大家的关怀,也是一件非常拮据之作业。引进系统就是消灭这一矛盾的要害工具。引进系统通过建立用户和信息产品之间的联系,采用已部分选择过程或投机性关系,一派挖掘用户潜在感兴趣的消息,单让信息能够展现在对其它感兴趣的客户面前。
  • 2014-08-27 20:16:42, 本站原创
    随着电子商务的飞速发展和推广应用,现代化推荐的引进系统已变成一个重要研究领域。现代化推荐算法是引进系统中最基本的技能,在很大程度上决定了电子商务推荐系统性能的高低。协同过滤是采用最为常见的一种个性化推荐技术。协同过滤主要分为基于用户之协同过滤和基于项目的协同过滤。
  • 2014-08-27 20:12:55, 本站原创
    网络舆情事件处理不当,会引发用户之过激行为。故此通过事件找出有关用户就足以起到一定的监察作用。本文先对购买户提供的多少(我家信息和事件)拓展预处理,对于用户信息,拍卖身份证号,还原成:性别,发证地,落地年月日,接下来重复事件去除,用replace pioneer硬件对html文件查找含QQ,手机,笔者等关键字,接下来手动添加进excel阴。对txt文件中的事件标题进行中文分词处理。接着抽取含有用户信息各属性的风波,转折为“我家-事件-我家”的样式,采用clementine硬件,剖析表的置信度和网络图直观性,得出
  • 2014-08-27 20:08:21, 本站原创
    随着互联网的敏捷提高,网络舆情对政局纪律秩序与社会安定有着非比寻常的企图,故此挖掘网络用户信息与网络舆情信息的角度的历程意义重大。编纂java语言,在关键词词频统计的基础上,给予用户信息中的关键词赋予比重不同之权重,落实在网络舆情资料库中对web消息提取与关键词提取的功效。名将用户信息中的关键词转化为向量A,增量的重为回答的关键词的权重,同时采取二值法将网络舆情信息库中的网页转为向量B,增量的重为回答关键词的出现与否,名将向量B中的各分量分别乘于相应的权重值,得向量C。求向量A与增量C的未知数值并由此构建
  • 2014-08-27 17:31:29, 本站原创
    网络舆情信息的开掘和监理,有助于维护社会安定。为了分析给定用户与舆情资源之角度,老大采用主成分分析法(AHP)拥有资金户之各属性与用户之间的沟通规则。接着对给定的述评文档进行预处理和中文分词,在此基础上,名将用户各属性定义为关键词,利用TF*IDF法,遍历舆情文档计算关键词权重。再对各舆情文档建立得分模型。
  • 2014-05-28 15:17:26, 本站原创
    本届大赛于2014年3月10日正式开始,2014年4月21日参赛者提交作品,比赛结束。开赛总共收到来自国内20多所大学的114份参赛作品,由高校和商店共同组成的评审专家组历时半月的评审,最终决出特等奖1份、二等奖作品5份、一等奖作品15份、一等奖作品26份、优质论文奖作品64份。
  • 2014-02-19 11:05:46, 本站原创
    申请时间:2014年2月24日------2014年3月9日;竞技时间:2014年3月10日------2014年4月20日;评阅时间:2014年4月21日------2014年5月4日;颁奖时间:2014年5月6日------2014年5月18日
  • 万众号
    QQ
    客服