IT技术博客大学习 共学习 共进步

你是如何了解或者进入NLP这个领域的?

我爱自然语言处理 2019-03-25 23:07:36 累计浏览 1,865 次
本机暂存

每个NLPer都有自己的故事,每个故事都很精彩!

前两天在AINLP公众号上做了一期赠书活动:8本NLP书籍任你选,发起了一个话题留言活动:你是如何了解或者进入NLP这个领域的?没想到,活动发布后,大家参与的热情极高,收到了200多条留言,但是限于微信公众号留言只能精选100条放出,所以有些遗憾,很多后来的同学的留言虽然写得很好,但是没有办法放出来了。今天是周末,我又认真的从前到后读了一遍,感慨每个人都有自己的NLP故事,这里做一次汇总,尽量把留言都放出来,就不一一回复了,感谢大家的支持与参与。

从留言来看,很多同学是读书或者在实验室的时候“偶然”入了NLP这行,和很多同学一样,我也是读书时误打误撞进入了这个领域,我本身读得是数学系,研究生读得是自动化系模式识别与智能系统专业,实验室有好几个方向,刚好一个方向是统计机器翻译,老师觉得数学系的背景适合这个,就安排我做这个方向了,所以很感谢老师当年的安排,让我和NLP结缘。最后再留一个话题,感兴趣的同学可以参与:你做的第一个NLP任务或者课题是什么?

另外这次赠书活动原计划从留言中选择4名同学赠书,但是大家参与活动的积极性太高,让人感动的留言不少,所以综合大家的留言内容、关注的时间、互动的频率等各个因素,我额外再赠送6本书给参与活动的同学,但是依然僧多肉少,请没有获奖的同学见谅,以后还有机会,大家先混个脸熟。请以下10名的同学直接添加微信AINLP2选择书籍和留收件信息:

C.S. , 意犹未尽, 迷糊s啦, 锐, 少女情怀总是诗, 璐璐, 黄金金, Mr.NLP, 瓜子, 川上月

其中瓜子同学作为20考研党代表和求赞第一名,这里送个祝福;川上月同学是博客、微博以及公众号的老读者,也投过稿,这里作为老读者代表,送个感谢。另外赠书活动昨晚已经抽奖完毕,大家可查看中奖结果,请以下4名同学也请一并添加微信AINLP2,留相关信息:

Emotion. , 发局, Null, cf

另外我们还在微博举行了同样的抽奖活动,感兴趣的同学依然可以移步参与,活动到下周四结束。

https://weibo.com/2104931705/HlW4Q2XNK

以下选自各位NLPer的留言,再次感谢大家。

C. S. 同学留言:

以前是个翻译。

2012/2013年开始接触mooc,掌握了python编程,学习了计算语言学和机器学习,阅读了nltk源码、word2vec论文、统计自然语言处理专著,了解了基于神经网络的语言模型,由此判断机器翻译和对话系统应该会很快迎来飞跃,大有可为。于是决定读研入行nlp。

现在已经毕业成为nlp工程师,虽然做的不是机器翻译也不是对话系统

意犹未尽 同学留言:

说起这个还在去年九月份,去年考上了北京理工的研究生,因为之前导师的选择产生了一点问题,起初联系的这个老师说名额满了,但是也可以在他这里学。挂名在另一个老师。我觉得还可以。开学后老师和我说想让我跟他们项目组一个做电气的老师。我心里凉了。我从本科选择专业自己想去计算机,父母说会压力太大,我去了电气,但我也自己一直坚持码代码,但是写的都是嵌入式。所以我励志考个研。但是直接考计算机有点难,学的科目太多。我想我转到自动化,自动化也有搞人工智能模式识别的,可能好点。就这样我考研去北理。来到这里又让我学电气简直是对我的一顿雷击。那两天我四处打听还有没有其他老师。碰到了一个师兄,他们实验室老师不怎么管,但是师兄师姐都是搞人工智能,NLP,计算机视觉都有。但是学习纯靠自己,老师给不了太大帮助。所以每年老师名额总是招不满。我说行,让师兄帮忙拉了线。最后去了那个老师那里。怎么说,做这个决定一方面和原来老师产生了一些隔阂,可能以后学习上更多的靠自己了。但我思考做一个决定可能决定自己三年一辈子。不后悔。至今学习了半年多 我跟着大师兄的房先在学NLP,从统计学原理到神经网络,从RNN到NLP。我相信这条路我不会后悔!

迷糊s啦 同学留言:

我是英语专业的,大一上课的时候老师们一直强调语言要用“内省”的方法研究,要自己一字一句地去看,去体会,但是这种方法在大批量文本下会非常无力,于是我就开始接触nlp领域,通过词性标注、概率统计方法去研究语言,逐渐痴迷。平时学院给的帮助很少,我都是去蹭课,还有上网课,学数学、搞编程、打基础,坚持了四年。现在在学习神经网络方面的知识,深深的体会到语言数字化带来的魅力,整齐的数据形式真的让人舒服。一路上遇到很多支持我的人,父母也对我的兴趣很支持。我也会继续努力,我坚信只有“语言素养积累+CS+Math”三管齐下,才会让语言学走的更远。

锐 同学留言:

NLP萌芽期。大二时,用lucene做全文检索功能,只感觉用lucene就可以像百度那样牛了。那次知道了分词,知道了“倒排索引”,并感兴趣于它,这个检索比较SQL的like快很多很多倍。在思考什么是分词?感觉NLP很有用。
NLP入门。工作后,从事推理系统研究,用到一些NLP处理的内容。决定系统学习,相继读了几遍李航老师的《统计学习》,接着读了多遍宗成庆老师的《统计自然语言处理》,这两本书很经典,每读一次都有不同的收获,过程中恶补很多基础,包括矩阵,概率图模型,变分,信息论等内容。这个过程是很痛苦的,学完了忘记,忘记了再学。难点是对基础的深度把握,理解本质的思想。这个阶段,知道NLP的体系是什么了。
NLP进一步的探索。先研究GloVe,word2vec,后研究RNN, CNN, Attention/ Transformer, 再后seq2seq,接着多任务,迁移学习,现在研究BERT,ELMO, GPT,GPT-2,还有知识图谱。
现在仍从事NLP算法研究,从事对话研究与知识图谱研究方向。学艺不精,请指教。

少女情怀总是诗 同学留言:

本科和研究生都是文科类专业,但本科期间学过C语言、计算机网络、数据库技术之类的一些计算机课程,大学四年特别不喜欢这种课,尤其是最难的C语言,几乎挂科。也不知道怎么的,研究生期间因为有些老师要求做视频作业、要翻墙、要搜集语料库、要下载固定格式的小视频什么的,让我觉得计算机特别有用,而且喜欢上这个领域一发不可收拾,默默地加了很多技术类公众号,甚至从知乎上专门搜索一些技术问答进行学习,并用专门的笔记本抄下来,有些回答里面会嵌入公众号,自己也有选择性关注,每天查看这些公众号的文章,让我感觉自己时时刻刻都在进步,甚至将这种思路写进了研究生毕业论文,获得了老师一致肯定,或许只有我不是那个写论文写到痛苦秃头的人吧,因为我在做自己喜欢的事。
就在年前找语料库时,无意间发现了对联机器人、诗句语料库,便关注了本公众号,让我打开了另一个领域的大门,还把这个对联机器人演示给爸爸看,跟他说现在科技发展有多么神奇。

璐璐 同学留言:

欺诈用户填写的地址是有相似性的,可以通过文本相似性对欺诈团伙分群。因为这个工作,我在2016年接触了NLP中的命名实体识别。感谢NLP,使我们在这一工作上取得了很大成果。希望能够通过深入学习,创造更大的反欺诈产业价值。

黄金金 同学留言:

当时做一个心理学的叙事分析(没搞过编程代码),发现人工编码真是太慢了,就想着现在ML这么厉害,难道没有计算机程序可以处理这样的文本吗? 搜了半天问了半天才知道这个东西叫NLP。

开始下python,装包,跑代码,最后把自己的文本数据成功跑出来,发现和人工的相关性不错,写到论文里作为辅证。身边没有一个人懂,没有一个人会,那几天倒是挺难熬的,全靠自己搜索和思考。

不过,没专业底子,真的有点难啊。羡慕评论里有人带学的那些小伙伴~

Mr.NLP 同学留言:

第一次接触NLP是17年11月份,世界文化十五讲的期中论文,写的是《基于文本的『古兰经』情绪分析》,参考简书上对权游的分析,那时候还不怎么会检索,不会谷歌,百度搜到了52nlp有对Stanford NLP组阿拉伯语分词的介绍(毕竟原版是阿拉伯语),就上官网,发现支持也不是很好,后来还是选英文了,阿拉伯语分析出来我也不知道说了啥,结果只有一个词——Trust,和古兰经的要义不谋而合,似乎神化了NLP,本人从小爱好国内外古籍,想用NLP发现其内在的东西,前段时间听了学校的NLP在方志方面的应用,比自己一页一页翻书再去整合效率要高得多。
大四面临毕业,想去Stanford读NLP没有先决准备,先混口饭吃,带带小朋友,南泥湾开荒,积累资本。
总之,我觉得NLP在古籍方面大有作为,效率会提高好多,学者穷其一生去研究未必会有多少成果

瓜子 同学留言:

20考研党对NLP有兴趣,想要一本课外书多学习学习,求赞

川上月 同学留言:

通过前辈的微博了解NLP的,很早之前就关注了的

Macielyoung 同学留言:

开始是接触了一个知识图谱的项目,其中会涉及一些nlp内容,从此就进入了nlp的大门。最近看了张老师的nlp三大特征抽取器文章(大力推荐),看完有种醍醐灌顶的感觉,讲解的非常细致,很多之前问题也加深了理解,对于rnn,cnn以及transformer理解帮助很大。目前也在接触一些nlp落地项目,希望能够学习更多nlp相关知识,做出更实际智能的功能吧

小蕾 同学留言:

现在研二,做医疗方面的文本分类,实验室还没有做这方面的师兄或者老师。不过有专业医生和我们合作,感觉自己做的这个项目非常有意义有价值,一心想做好。我的求学之路比较坎坷,考研考了424分,却报成了非全日制,眼看没有学上,无奈一下调剂了另外一个专业,虽然与原专业不同,但方向没差多少,这是最好的结果了吧,感谢曾经努力的自己,还会继续努力,做有价值的事,做有意义的事,读一好书本书感觉就像和一位老师交流学习,很棒,我急需要这样的老师!

某 同学留言:

大二的时候报了一个项目,是NLP方向的。于是在寒假看完了吴恩达的机器学习。但是觉得不大够,又去看了一下台大李宏毅的宝可梦。这个课程很有趣,也很生动,非常推荐。后来去看吴恩达的深度学习课程,同时也在看cs224n(好像是这个吧)非常希望能拿到一本书吧,真的觉得NLP很有趣。

冷暖自知 同学留言:

我还是来说说我的吧 ,读的西安交大的机械,机械就要做故障诊断,故障诊断研究的是贝叶斯网络,要研究贝叶斯网络就肯定要懂隐马尔可夫模型,还得懂LDA主题模型,再往外扩展,发现贝叶斯网络做词多分类还挺多的,然后接触到了宗成庆老师的统计自然语言处理,从统计翻译模型接触到NNLM,再到w2v,最后到什么GPT.bert.现在百度的ernie都开始填坑,越填越大,一发不可收拾。有比我还离奇的吗

涂样 同学留言:

我是从事搜索引擎行业的。在搜索引擎上,nlp相关的场景很多,总会接触到。零零散散的学了一些知识点,从word2vec到glove,从rnn到bi-LSTM,也粗略的读了一些论文。在搜索引擎的场景下,nlp很多都是为了生产网页的特征,这些特征很大程度上决定了搜索引擎的相关性(结果的好坏)。当然除了nlp级别的特征外,也有一些别的信号,如用户的点击数据,外链等等。在搜索引擎上看,nlp不是全部,但是很重要的组成部分

TheKernel 同学留言:

现在是大二的学生,2018年前半年加入导师的项目,刚开始是跟我说做大数据的。后来进去之后知道是做NLP的,因为本身在大一的时候就对DL非常感兴趣,所以就跟着去做,到现在已经是半年多了,还是处在入门的状态,只能做做小回复机器人,不过我会加油的!哈哈哈哈哈!!

!! YAi 同学留言:

其实很偶然,大一的时候加入了一个公益社团,专门负责解决学生在校园里的各种问题,现在是一个双非一本院校的cs专业的学生,因为社团需要一直转发消息,于是我做了一个机器人去帮忙转发消息,现在已经服务于我们学校上万的学生了 ,但是现在需要的消息太多了,我们迫切需要机器人能够对一些关键的问题进行处理,而且能和一些同学聊天…于是就找到了nlp

yang 同学留言:

我刚开始接触深度学习是做图像的,了解过一些分类和分割的网络,当时感觉真难!后来到开题了,赶鸭子上架从了nlp做文本。将我自己的感受来说,如果没有图像处理基础知识的话,还是做文本稍微容易点,当然我没有具体做翻译之类的复杂问题,只做了文本分类。我从上网开始就参加各种抽奖,奇迹般的完美避开中奖!nlp大法好!

chinabuffon 同学留言:

选择NLP,这个好像并不是我选择的。高考瞎报志愿,本科的时候专业课老师其实就是做NLP的,知道大概有一个方向叫NLP吧。上大学前感觉所有学科归根到底都是数学vs语文。上了大学第一次听说可以用数学方法研究语文,还有这种操作?!感觉厉害爆了啊!像我这种人,数学也还是会算的,对文字自以为比较敏感,选择NLP俨然是历史的行程。

我爱吃西瓜 同学留言:

项目驱动的,由于中国专利申请量飞速增长,人工分类干不过来了,所以要搞自动文本分类。阴差阳错进了nlp行,有幸结识了一众大牛,逐渐有了一些自己的认识。感想就是nlp深似水,行业落地难上难,没入坑的同学们,慎重慎重!

爱海的春天 同学留言:

转行,大学毕业学的土木,毕业那年17年,从看李开复的一本书中了解到人工智能的趋势和通俗概念。学了半年python,后又觉得搞web的实在太多了,又自学了ml,dl,nlp(还是发现人很多…)。总的来说,当年如果没有在那个书店,看到李开复的那本书,我很大可能现在不在这个行业。

文武斌 同学留言:

作为一个外行,因为对人工智能感兴趣,一直在 yy 各种实现通用人工智能的途径。有点像民科了哈哈。读过一些书之后,我觉察到自然语言是大脑中各种知识表示的外显,是最容易最直接能观察到的信息,也可能是通往真正智能的钥匙。然后我就想多了解一点,然后在找书的时候找到了本公众号作者网站,然后就关注了这个公众号。想到接下来我竟然还能收到赠送的新书,我感到激动不已,一切竟是这么自然不违和。就好像世间发生的事都遵循某些规律,这或许是更高层次的生命和智慧了吧。yy 完毕。

天杰 同学留言:

研一开始项目_构建经济知识图谱,个人负责分词,词性标注,词向量训练,限定域实体关系抽取,句子级关系抽取,图谱生成,完成了第一期版本,目前各图谱性能太差,但是这个项目让自己对自然语言处理产生了浓烈的兴趣,将自己的研究方向放在了中文关系抽取,主要研究限定域中文实体关系抽取,事件关系抽取,但学得多,发现不懂的越多,关注公众号,阅读文献,了解前沿技术,阅读书籍补充基础知识,加油!

明月你好,我是沟渠 同学留言:

大一看到句法树库的时候,并不能完全看懂,却觉得它就像孔雀开屏般优美,把句子层层剖析开来的感觉真的好治愈。时常在想,能让机器懂得人类的语言是件多么神奇的事情。
目前自己还没有资格被称为“进入NLP领域的人”,需要学习和补充的知识和技能还有太多太多。虽然是一个纯文科背景的编程小白,但还是非常渴望能够成为冯志伟先生那样的跨学科学者(此处给冯男神跪一跪)。
希望自己20年中文信息处理考研能成功上岸

志方小姐的音乐会 同学留言:

2017年1月1日(没错就是元旦那天),偶然间看到NLP大佬张俊林博士的一篇关于用深度学习做机器阅读理解的综述,还没确定课题的小白,毅然决然投入了机器阅读理解的伟大(Ju)事业(Keng)中!顺便说一下,2017年之前研究过一段时间垃圾评论检测,没错,就是最后一本书的作者UIC的Bing Liu教授和他的博士生金达尔(Jindal)在2007年开拓的研究方向。后来阿里云的某大佬(忘了叫啥了)来我们学校讲当年“机场客流量的时空分布预测”的天池竞赛,我们老师就想跟他交流了一下淘宝是怎么做垃圾评论检测的,该大佬云:你们拿不到用户行为数据,做了也没有意义。于是果断弃了垃圾评论检测的坑!

田园·D·司机 同学留言:

14年二战考博失败找工作接触到NLP,义无反顾从杭州到上海就为进入NLP领域,从刚开始的什么都不会到现在初窥NLP门径,从事NLP也四年有余。伊利诺伊大学的刘兵教授在情感分析领域颇有建树,在14年就拜读过他的一些paper,情感分析在NLP领域也是热门应用,而当今的情感分析主流还只是情感分类,情感抽取还是一个难点,希望未来能够突破瓶颈。我还是希望能获得刘兵教授的情感分析这本书。

伯若婆弱米 同学留言:

选择NLP,这个好像并不是我选择的。高考瞎报志愿,本科的时候专业课老师其实就是做NLP的,知道大概有一个方向叫NLP吧。上大学前感觉所有学科归根到底都是数学vs语文。上了大学第一次听说可以用数学方法研究语文,还有这种操作?!感觉厉害爆了啊!像我这种人,数学也还是会算的,对文字自以为比较敏感,选择NLP俨然是历史的行程。

花花宇宙翻滚秀 同学留言:

大一时候上过一门专业通识课,叫做信息管理概论。我还记得老师指着一张二战时候我国油田钻井的照片对我们说,这张照片在你们看来,是数据。然而,这张照片当时流到了日本情报机构的手里,就成了信息。为什么?因为他们通过这张照片拍照的时间、光线和自然景观,判断出了油田的大致地理位置;通过地理位置,他们可以了解到当地的岩层状况,从而知道油田的大致深度;通过油田的大致深度,就清楚了图中这款当时最先进的钻井机达到了什么样的技术水平。

Emotion. 同学留言:

德国cs研究生,本科信息安全,从图像加密开始接触cv然后dl,现在回国工作,项目需要,入坑nlp,开始对nlp有了进一步的了解,ml和dl永远只是工具,cv和nlp基础要学好,数据才是王道!

Teddyl 同学留言:

由于公司要做企业搜索引擎,有了知识抽取,文本推荐,文本分类,文本摘要方面的诉求,就开始了nlp方向的学习和工作。后面又接触到了文本匹配,广告绝对语识别的任务,感觉nlp方向挑战大,数据少,有标注的数据更少,同时又很有意思吧。

叫我培基就好了 同学留言:

当时挑选导师的时候,希望走人工智能的方向,挑选了现在的导师,结果发现AI方向很笼统,里面还有自然语言处理,计算机视觉,推荐系统等等,我的导师是nlp方向的,于是就了解了一些相关的nlp技术,对话,命名识别,语义理解等等,我觉得AI要智能,语言是不可或缺的,所以我也希望自己能在AI的大浪潮下做一些自己觉得有趣的事

宜明คิดถึง 同学留言:

工作为个性化推荐方向,接触NLP是因为有些评论、描述等数据需要处理,目前只是比较简单的“jieba分词->TF-IDF提取关键词->word2vec词向量->分类算法”一套,没有涉及语义等比较深入的NLP,需要花更多精力来学习应用

sisi 同学留言:

我本科是学英语的,对语言学特别感兴趣,但是感觉文科老师把语言学这个东西给带歪了,像chomsky的那些形式语言学,这种纯理性的东西才应该多学点。于是考研就转行了,但是转的貌似不成功。现在做计算机辅助语言学习方向,学习资料的精读要够,技术处理的语料精度是不够的,自己懂点语言学习,也懂点技术,也自学了nltk with python一书,蹭过北大常宝宝老师的课,总算对各种模型有了解。自己想要实战那本书,就是阿里的那些资深工程师写的那些。

建议继续学习

  1. 给程序员新手的一些建议 (累计阅读 13,024)
  2. 相似度计算常用方法综述 (累计阅读 10,503)
  3. 五个免费开源的数据挖掘软件 (累计阅读 6,424)
  4. 招聘者拿起你的简历后的前6秒钟看的都是什么 (累计阅读 6,044)
  5. 基于用户行为分析的搜索引擎自动性能评价 (累计阅读 5,685)
  6. 皮尔逊积矩相关系数的学习 (累计阅读 5,527)
  7. 一个简单的中文分词程序 (累计阅读 5,440)
  8. 如何计算两个文档的相似度(二) (累计阅读 5,161)
  9. 文言文白话文互转:文言文转白话文(现代文),白话文(现代文)转文言文 (累计阅读 5,063)
  10. 漫话中文分词算法 (累计阅读 4,923)