申请专栏作者 参展
投稿发布
您的当前位置:主页 > 数据挖掘 > 正文

数据挖掘领头人韩家炜教授:如何从无结构文本

来源: 时间:2019-11-08
请支持本站,点击下面的广告后浏览!
作者:camel 来源:雷锋网

 

可思数据sykv.com,sykv.cn

这几日,对于许多数据挖掘领域的研究者来说,北京是一个关注的焦点,原因无他,作为数据挖掘领域的两大顶会CIKM 2019和ICDM 2019相继在北京召开,甚至连开会地点(国家会议中心)都没有变化。

可思数据sykv.com,sykv.cn

  可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

可思数据sykv.com,sykv.cn

 

内容来自可思数据sykv.com

两个会议同为CCF B类,其区别在于前者是ACM举办,而后者是IEEE举办;此外CIKM覆盖范围更广,包括了数据库、信息检索和数据挖掘三个领域,而ICDM则更为专注数据挖掘。

本文来自可思数据(sykv.com),转载请联系本站及注明出处

在两次会议中,数据挖掘领域的巨擘韩家炜教授将就其研究分别做主题为《From Unstructured Text to TextCube: Automated Construction and Multidimensional Exploration》(@CIKM2019)和《Embedding-Based Text Mining: A Frontier in Data Mining》(@ICDM2019)的报告。

本文来自可思数据(sykv.com),转载请联系本站及注明出处

现实世界中的大数据在很大程度上是非结构化的、互联的和动态的,且以自然语言文本的形式出现,将此类庞大的非结构化数据转换为有用的知识是一条必由之路。目前大家普遍采用劳动密集型的方法对数据进行打标签从而提取知识,这种方法短时来看可取,但却无法进行扩展,特别是许多企业的文本数据是高度动态且领域相关。 可思数据sykv.com,sykv.cn

韩家炜教授认为,大量的文本数据本身就隐含了大量的隐模式、结构和知识,因此我们可以借助domain-independent 和 domain-dependent的知识库,来探索如何将海量数据从非结构化的数据转化为结构化的知识。

可思数据sykv.com,sykv.cn

如下图所示,是韩家炜教授及其学生在过去以及未来研究的主线:

可思数据-AI,sykv.com开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌,深度学习,机器学习,神经网络

 

可思数据-AI,sykv.com智能驾驶,人脸识别,区块链,大数据

  本文来自可思数据(sykv.com),转载请联系本站及注明出处

韩家炜认为要想将现有的无结构的大数据变成有用的知识,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(Heterogeneous Network),另一种是多维文本立方体(Multi-dimensional Text Cube)。由这种结构化数据生成知识已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network 或 Text Cube)则是非常困难的。

可思数据sykv.com,sykv.cn

在 Network/Text Cube 到 Knowledge 的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果,现在仍在进行中。韩家炜认为这是一条很长的路,他们现在只是在这条路上突破了几个可以往前走的口子,还只是一条小路,要变成一条康庄大道则需要各国学者共同努力。 可思数据-www.sykv.cn,sykv.com

韩家炜教授的研究工作并非跟随热点,而是在十年如一日地去打通一条从无结构数据到有用的知识的康庄大道,因此脉络极为清晰且极具连贯性。

内容来自可思数据sykv.com

雷锋网 AI 科技评论在2018年初曾整理过一篇韩家炜教授的演讲报告文章《韩家炜在数据挖掘上开辟的「小路」是什么》,值得大家参考。相比一年前,韩家炜教授的团队也在不断将当前最新的研究进展融入到他们这条「小路」当中,例如BERT、Spherical Text Embedding等,这些请查阅韩家炜教授团队近期发表论文: 可思数据-www.sykv.cn,sykv.com

 

可思数据sykv.com,sykv.cn

 

内容来自可思数据sykv.com

在2018年初他提到的以下几本已经发表的书: 可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

  可思数据sykv.com,sykv.cn

  可思数据-AI,sykv.com开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌,深度学习,机器学习,神经网络

站在2019年末,韩家炜的团队又发布了几本新书:

可思数据sykv.com,sykv.cn

  可思数据sykv.com

  可思数据-数据挖掘,智慧医疗,机器视觉,机器人sykv.com

任翔出了《Mining Structures of Factual Knowledge from Text》,张超也出版了《Multidimensional Mining of Massive Text Data》 。
 

本文来自可思数据(sykv.com),转载请联系本站及注明出处

转发量:

上一篇:如何进行物联网大数据分析?
下一篇:没有了

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片 匿名?
数据标注服务

关于我们   免责声明   广告合作   版权声明   联系方式   原创投稿   网站地图  

Copyright©2005-2019 Sykv.com 可思数据 版权所有    ICP备案:京ICP备14056871号

开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌资讯   开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌资讯   开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌资讯   开元棋牌是个坑_代理开元棋牌的平台_你们怎么看开元棋牌资讯

扫码入群
咨询反馈
扫码关注

微信公众号

返回顶部
关闭