[学术报告]王明文: 重新审视特征(样本)的重要性
时间:2014-05-12 , 作者:杜亚军 ,点击量:1036
报告题目: 重新审视样本(特征)权重
报告人:王明文 教授(博士)
时间: 5月15日( 星期四) 上午10:00-12:00
地点: 6A520
承办: 数学与计算机学院
内容简介:在机器学习建模中,样本和特征的权重是影响模型好坏的主要因素,我们试图以文本检索和分类为具体实例来审视特征权重和样本重要性问题。在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容,在总结和回顾以词袋(bag-of-word)的形式表示文档来建立检索模型的方法的基础上,提出了基于词项图(graph-of-word)的文档表示形式来捕获词项间的依赖关系,给出了词重要性计算方法。对文本分类问题,受认知科学中的样例理论启发,重要样本和例外样本在人的分类学习中有重要作用,训练样本集的样本在构建分类器时的重要性有所不同,由此提出了样本重要性原理,运用随机数学等理论,通过边界样本计算给出样本重要性计算方法,并应用这一原理来优化分类器。
报告人简介: 王明文,男,汉族,1965年1月生,中共党员,工学博士,教授。1988年毕业于江西师范大学计算机系,获硕士学位;2000年毕业于上海交通大学计算机科学工程系,获博士学位;2002年12月至2003年12月在加拿大MONTREAL大学做访问学者,任特邀研究员;2009年4月至2009年10月在YALE大学做访问教授。现任江西师范大学计算机信息工程学院院长,教授,博士生导师,江西省“新世纪百千万人才工程”人选,长期从事计算机专业的教学和科研工作。中国中文信息学会理事,中国计算机学会中文信息技术专委会委员。主持3项国家自然科学基金项目、6项省部级科研课题;发表了百余篇论文,其中EI检索40余篇。主要研究方向是:信息检索、数据挖掘、机器学习。