澳门美高梅公司介绍:跨专业自学NLP,这个90后撸出了开源类库HanLP,已在GitHub收获1.5W星

作者: 刘燕 2019-11-04 13:51:13
本文来源:http://www.2233122.com/www_70mao_com/

太阳城娱乐网最快登入,鉴于这两种型号的适配器并未出现过热的情况,有需要的车主可以继续使用。目前已核实确认了11名遇难人员身份信息,其中7人为河南籍,2人为山东籍,1人为陕西籍,1人为四川籍。选定号牌号码后则可预约换领号牌的时间和地点,预选号牌号码有效期为1个月,逾'/>  三、记者来法院采访情况  12月2日下午16时30分,闫卫星夫妇与两名记者一同来到鹿邑县法院大门口,两名记者带着摄影器材要求进院采访,门岗值班保安要求出示相关证件,因其没有出示而没有让进入法院。

面对渴求优质内容的中国虚拟现实市场,数字王国将利用专业技术和艺术创意等传统优势深耕内容创作领域,开拓全新版图。  只有减排才能改善空气质量,理想状态为即使出现不利的天气形势,也不会发生空气污染,柴发合说。12月13日的对手国王,湖人之前赢了他们10分。  该塔的产品介绍显示,使用小量的绿色能源和专利的无臭氧离子技术,每无霾之洞每小时能够净化3万立方米的空气,捕捉并收集空气中至少75%的PM2.5和PM10雾霾颗粒,同时以360度全方位释放清新空气,在塔的周围制造出一个环状清新空气区域。

在这一过程中,飞行器就像被一股神秘的力量柔和地托起,被称为“地面效应”为“上帝之手”。”(记者杨莲洁/文)作者:编辑:杨蕾未来网为中央新闻网站如有新闻线索请发至邮箱:wlwnews@163.com汝南县委多名政界人士告诉澎湃新闻,11月30日上午,驻马店市召开了干部纪律作风整顿相关会议,汝南县委书记彭宾昌及多名汝南县相关领导参加了会议,并在会上遭到了驻马店市相关领导的严厉批评。  其中,中标公告有61条,其中内容全面(包含雾炮车中标价及购买数量)的有38条,包含福建、广西、河北、河南、江苏、山东、浙江、重庆等8个省市区,采购部门多是环保局、市政公司等。

截止 2019 年 10 月底,一款名为 HanLP 的自然语言处理类库在 GitHub Star 数达到了 15.5 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨工业大学的 LTP。这是一款由一系列模型与算法组成的自然语言处理(NLP)开发工具包。

你或许想象不到,这款 NLP 工具包被开发出来时,它的作者何晗,还是一位日语专业的大二学生。如今,在攻读博士期间,何晗又创作了一本《自然语言处理入门》,希望解决小白们的 NLP 入门难题。该书得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。

“理论是根,项目是树“,如果说 HanLP 是树,那么这本《自然语言处理入门》便是树的根基。在该书问世之际,AI 前线与何晗展开对话,了解这位极具天赋的学生“种植树”,“培育根”的故事。

痴迷游戏走上编程之路

和很多90后一样,何晗爱好动漫和游戏。这两个爱好后来也深深影响了他最为关键的两次重大人生抉择。

高中时,何晗就读于黄冈中学理科“状元班”,班上学霸云集,但何晗觉得自己和那些学霸同学比差远了。“我肯定不是学霸,我属于那种均值 80 分,方差特别大的类型”。

他笑称自小不喜欢听讲,要不就自己看书做题,要不就坐在座位上神游。有几次考试,他超常发挥进入了“状元班”。不过,最为关键的高考,他却考得并不理想。

这次高考失利让何晗决定“放飞自我”,选一个自己喜欢的专业。因为喜欢动漫,在志愿填报时他选了日语专业。2011 年,何晗成为上海外国语大学日语系的一名学生。他的业余时间也几乎都被追新番、背单词、宅着打游戏填满。

打游戏是何晗走上编程之路的原始动力,他挺想自己做一个游戏出来。曾经有一段时间,何晗痴迷打“仙剑四”,他想把剑四的“mod”给做出来。

也是从那时候起,何晗开始尝试学习各种编程知识:C++、Windows 编程、3D 编程、汇编逆向、PHP、JavaScript、Linux。对于一个非科班出身的人来说,自学之路免不了遇到困难。何晗坦言,最大的困难是没有机会系统性学习操作系统、编译原理等专业课程。他倒是有一个很实用的学习方法 — debug。

何晗的 debug 能力很强,“不管是什么算法谁的代码,我都能一行行 debug 下来。每次我写的算法不对的时候,我都会创造相同的输入数据,开两个 debugger 窗口,一个跑我的,一个跑别人的。我的知识大部分来源于调试别人的代码,可以说是‘偷师’自所有人”。

最令何晗印象深刻的是,他自学编程途中达成的一个小成就。当时上外的校园网仅支持网页版登录,打开较慢、登录时也无法记住密码,很不方便。为了解决这个问题,何晗花了一个劳动节假期做出了一个自动登录软件。现在回想起来,何晗坦言这个软件还有很多不足,但同学们用的很开心。

这个小成就还让何晗收获了一个意外之喜。学校网络技术中心的张老师听说了这事后对他很是赞赏,便赠送给他一个校园网 VIP,还给他介绍了一家外包公司——林原科技的兼职。

大二开发出 NLP 类库

也正是这份兼职工作,让何晗与自然语言处理(NLP)结下了不解之缘,后者也是他目前攻读博士期间的研究方向。

一日,林原科技立项做一个 “智能检索系统”。中文搜索引擎的第一步是分词,老板分配给何晗一个任务——做一个分词器,并给了他几本厚厚的学习资料。

老实说,这是何晗第一次接触 NLP,显然做出这个分词器得需要“现学现卖”了。他倒颇有几分自信,“我应该能拿下”,“要么不做,要做就要做最好的“。

经过调研,何晗发现,市面上的开源工具 Jieba、Ansj、IK 等分词效果都不太理想,很多人名、机构名别称分不出来,新词隔三差五就更新却收录不进去,分词速度也很慢.... 他当即决定,一定要做出一个体验效果好的分词器。

紧接着,何晗开始了一边“泡”在专业书和论文里自学一边开发的过程。张华平、刘群等 NLP 领域专家的论文几乎都被他翻了个遍,被一些深奥概念绕的云里雾里那自是家常便饭。对何晗影响最大的是吕震宇开源的 C# 版的 ICTCLAS 分词系统,他边学 C# 边对照着吕震宇的博文研读这才搞懂了 ICTCLAS 分词原理。何晗尝试着在 ICTCLAS 的基础上做了一些改进,并且实现了 Java 版,这个版本运行速度很慢,好在输出的结果跟 ICTCLAS 是一致的。

弄懂了 ICTCLAS 之后,何晗又开始学习单步 Ansj,Ansj 的数据结构——双数组字典树速度之快对他来说像打开了新世界的大门。于是他便饶有兴趣地开始研究数据结构,最后他自己创造出了一个“基于双数组字典树的 AC 自动机”的数据结构。

功夫不负有心人,花了半年时间,何晗最终还是将这个分词器做了出来,并取名“HanLP”。这对于一个大二日语专业学生来说,是极为难得的。何晗用上了自研的基于双数组字典树的 AC 自动机,这大大提升了 HanLP 的运行速度。

第一版本的 HanLP 功能比较简单,后续经过几年的迭代,其功能越来越完善,性能更高效。HanLP 能提供词法分析、句法分析、文本分类、情感分析等功能。此外,HanLP 还具有精度高、速度快、内存省的特点。

截止目前,HanLP 的 GitHub Star 数已达 15.5 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨工业大学的 LTP。

对于这个成绩,何晗很开心,他感激广大用户的认可。“从开发者的角度讲,我肯定是不及教授们的万分之一,无论是水平上还是人数上”,何晗表示,相对于上述面向教学和学术用途的项目,HanLP 是个人项目,主要面向生产环境开发,由于目的用途不同,HanLP 取胜的“法宝”在于良好的用户体验,在接口设计、代码风格等“软实力”方面比较人性化。

博士出书

HanLP 的意外成功让何晗对 NLP 有了更深入的了解,在开发这个项目的过程中,通过对领域内专业知识的学习,他领略到了 NLP 这门学科的魅力,在随后的学习生涯中,他便锁定 NLP 为主要的研究方向。目前何晗在埃默里大学读计算机博士,主要的研究方向是句法分析、语义分析与问答系统。 

跨专业自学NLP,这个90后撸出了开源类库HanLP,已在GitHub收获1.5W星

从 v1.3 版本起,HanLP 由大快搜索主导开发,并完全开源(GitHub 开源地址:/github_com/hankcs/HanLP)。2018 年 11 月,HanLP 更新到了 1.7 版本,新增文本聚类,流水线分词等功能,这时 HanLP 的中文词法分析已比较成熟,达到了工业使用的水准。

现在,何晗仍在负责 GitHub 上 HanLP 的维护工作。HanLP 令何晗收获了一众粉丝,他们常常来找何晗咨询一些 NLP 专业相关的问题,时间长了,问题越积越多,何晗试图帮助一些初级用户找一些入门资料,却遗憾找不到特别对口的。适逢出版社的编辑找他约稿,何晗索性决定,干脆自己写一本入门资料。

在这样的背景下,这本《自然语言处理入门》的定位很快明确下来:普通人入门时看的第一本 NLP 书,小白也能看懂的工具书。何晗还希望该书能为读者指明下一步的方向,因此在入门内容的基础上,他加上了一些挑战章节。

2019 年 10 月,历时 1 年创作、十几遍校对,《自然语言处理入门》正式出版,该书还得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。

“理论是根,项目是树“,如果说 HanLP 是树,那么这本《自然语言处理入门》便是树的根基。

与创作 HanLP 时期相比,何晗已经从小白蜕变成了领域专家,不变的地方在于,何晗仍将“工程与理论相结合”作为创作的核心理念,他试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡。何晗以自己的开源项目为案例,代码对照公式讲解每一个算法每一个模型,希望让读者知其然并且知其所以。

NLP 现在最大的问题是难以表示世界知识

采访中,何晗对于 NLP 及句法分析、语义分析、问答系统目前的发展现状和发展趋势分享了自己的精彩观点。

Transformer 大家族狂欢的一年

何晗表示,今年是以 BERT 为首的 Transformer 大家族狂欢的一年,自从发现在大规模无标注语料上训练的 Transformer 语言模型可以编码很多知识后,各项任务包括对话系统都在研究怎么接入 Transformer。这些研究令人振奋,在另一层意义上也有些单调无聊。虽然从结果上来看效果的确提升了许多,但模型的可解释性还不够。谁都知道知识肯定编码进去了,但究竟是如何编码、为什么能编码、如何精简参数等等,还在研究当中。

英文句法分析摸到了天花板

句法分析和语义分析都可以归结为为每个单词找被修饰词,然后标注它们的关系。针对这种类型的任务,BiAffine 是比较前沿的做法。它属于基于图的算法家族,天然适合并行化,在 GPU 下速度很快。此后还涌现了许多“改进”研究,大致朝着高阶建模的方向走。不过,何晗认为,英文句法分析基本摸到了天花板,中文句法分析可能不是差在模型而是差在高质量大规模树库上。

至于语义依存分析,与句法分析模型一样,只不过语料库的建设比其滞后。同属语义分析家族的另几项任务,问句转 SQL、抽象语义表示则稍微平凡一些,基本上都是 Seq2Seq 的变种。对于上述的所有任务,如何有效地将问题表示为向量才是核心问题。这时候,又轮到 Transformer 霸榜了。

未来机器学习工程师岗位会减少

谈到 NLP 现在发展中的挑战,何晗表示,NLP 现在最大的问题是难以表示世界知识,举个例子,每个人都有一套对物理世界的认识,但计算机只有一些符号语料。“人们都说百闻不如一见,目前的 NLP 系统别说见了(机器视觉),连闻都很少闻(语音处理)”。

但就学界的前沿动态而言,在模型结构的探索上 AutoML(自动设计神经网络),以及在知识工程上的自动构建知识图谱, 都是未来可预见的发展趋势。

就工业界而言,未来机器学习工程师的岗位反而会减少,因为神经网络可以自行设计神经网络, 就不需要这么多工程师手动设计了。到时候,软件开发将进入 2.0 时代,不用再写代码,而是标注数据。标注数据丢给神经网络学习模型,模型的结构也是神经网络自动探索出来的,这个模型用来解决实际问题。软件工程师不需要写一行代码,或者说,他们标注的数据就是他们的代码。神经网络是他们的编译器,训练出来的神经网络是他们编译后的程序。正如编译器可以编译编译器一样,神经网络也可以训练神经网络。这就是未来最有潜力的技术。

写在最后

现在读到博士了,何晗的生活依旧简单,除了日常学习,他最爱的还是动漫和游戏。

维护 HanLP 之外,何晗还业余经营着一个名为“码农场”的博客,用于自己的课程笔记分享。由于太忙,这几年“码农场”的更新频率已经降到了以“年”为单位,不过,日常仍有数千粉丝来这里翻阅资料。

从该博客的一隅,或许可以一窥何晗的另一面。

在“码农场”的资料介绍处,何晗称自己是一个算法初心者。大二时兼职开发 HanLP,何晗常常一个人坐在教室忙活,同学们完全不知道在干什么,“大部分女同学认为我就是个码农,修电脑的那种;有的男同学觉得我很 low,有的觉得我很酷“,何晗从来不解释,他觉得做自己就好了。

他亦是一位算法坚守者,从兼职接触到如今锁定研究方向,他一直在自己喜欢的领域保持专注。采访最后,何晗告诉我们,毕业后,他会选择继续扎根学术。

机器学习 人工智能 计算机
上一篇:四种高性能数据类型,Python collections助你优化代码、简洁任务 下一篇:大数据架构详解:从数据获取到深度学习
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

太阳城娱乐网最快登入 数据转换率较低将如何严重影响机器学习

如今,机器学习以多种有益的方式改变着市场的未来发展。数字营销研究机构的调查报告表明,97%的决策者认为机器学习技术将促进未来市场发展。

Sean Mallon ·? 1天前
太阳城娱乐网最快登入 人工智能初创公司走向成熟要经历的四个阶段和关注点

对于什么是“人工智能公司”,目前还没有明确的分类。对一些人来说,人工智能只是一个流行词,被添加到营销策略中以吸引资金。很多初创公司正在利用人工智能技术,虽然这给市场带来了一些真正创新的解决方案,但它也催生了大量假冒的人工智能。

风车云马 ·? 1天前
一文理清深度学习前馈神经网络 精选

前馈神经网络(feedforward neural network)是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。

SAMshare ·? 2天前
医疗AI深水区:仍然需要解决的一些大问题

除了5G,人工智能依然是今年备受关注的话题,笔者近日近距离观看了一个医疗人工智能大赛,现场十几个医疗项目,每一次路演完成台下评委老师们就会发问,上面这几个是最经常被问到的几个问题。

佚名 ·? 2天前
模仿川普语气真假难分:从未如此逼真,超强编故事AI完全体来了 精选

还记得那个编故事能以假乱真的AI模型吗?它叫GPT-2,因为效果太好,OpenAI说不能放出全部——让坏人误用就不好了。

乾明 鱼羊 栗子 ·? 2天前
粒子机器人的出现,可能带来机器人自我意识觉醒危机

在2019年腾讯科学WE大会上,来自全球各地的科学家带来了顶尖科技进展,细胞疗法、脑芯片、弦理论等。其中最吸引眼球的前沿科技产品之一,是由美国哥伦比亚大学实验室带来的粒子机器人。

商派老板工具 ·? 2天前
解读机器学习翻译的局限性

机器学习翻译对于人们的交流非常有益,但是它们也有其局限性。机器学习为企业提供了翻译文档的新机会,他们可以使用机器学习来翻译营销材料和其他文献。但是,这些人工智能解决方案可能并不总是很好的选择。

Ryan Kh ·? 2天前
2020年的信息安全:人工智能(AI)在各种信息安全系统中的广泛涌现

在过去的几年中,信息安全一直都是基于防病毒方案、隔离技术和加密技术的组合。政府机构和信息安全公司愿意采用跟踪互联网流量的方法,并根据其签名查找可疑材料。这些技术重点是在出现问题后去检测恶意软件,并去实现良好数据与恶意软件之间的隔离。

Marc Canel ·? 2天前
Copyright?2005-2019 太阳城娱乐网最快登入 www.2233122.com 版权所有 未经许可 请勿转载
菲律宾太阳城申博直营网 太阳城网址 四川申博官网登入 申博手机下载版 申博免费开户官网登入 菲律宾申博游戏直营网
申博代理管理网登入 申博太阳城游戏下载 菲律宾太阳娱乐官网登入 申博娱乐现金网 申博太阳城代理开户 申博手机客户端下载登入
申博游戏苹果手机怎么下载 申博游戏苹果手机怎么下载 菲律宾太阳网上娱乐 申博太阳城登入 www.3158msc.com 菲律宾申博直营网