从“你妈逼你结婚了吗”的分词引发的思考

[复制链接]

6

主题

0

回帖

0

积分

新手上路

积分
0
待字闺中 发表于 2016-12-4 16:17:47 | 显示全部楼层 |阅读模式
“你妈逼你结婚了吗?”

在不同的分词系统给出了不同的结果。

一个分词系统的结果是:

“你/妈/逼你/结婚/了/吗?”

另一个分词系统给出的结果是:

“你/妈逼/你/结婚/了/吗?”

严肃的用户坚持说第一个才是正确的结果,有幽默感的同学大呼第二个太牛逼了。公说公有理,婆说婆有理。在没有上下文,没有场景,没有具体应用的情形下,实际上无从评论孰好孰坏。但是,这个问题倒是引发了对中文自然语言处理研究方法的思考,借以抛砖引玉。

现在对中文自然语言处理的常用方法,且不说内部算法,基本是按照分而治之的逻辑,是研究分词,词性标注,语义标注,句法分析,语义分析,语用语境分析,语言生成,等等。然后,才是用这些方法或是模块或是子系统去解决具体的应用场景和问题,比如,信息检索,机器翻译,问答,理解,摘要,情感分析,等等。这种分而治之的做法,一直这么继承下来,大家玩的不亦乐乎。但是各种方法,都只是在尽力解决自己的局部问题,利用的都是对自己有利的信息,很可能是局部最优结果,很可能和其它模块是钟摆关系,比如,通用分词系统,追求的是分词的正确率,很少考虑分词的使用场景和来解决的具体问题。当将各个不同的方法整合起来用于一个具体问题和场景时,各个环节的方法引发的错误,很可能被关联的环节一个一个节放大,从而影响了对某个具体问题和场景解决的质量。

然而,深度神经元网络的seq2seq模型,最近在自然语言处理很多的任务或问题或场景上取得了不小突破。比如,Google推出的神经翻译,已经接近人类的翻译水平了;还有就是问答系统,也有一些出彩的地方;搜索或是信息检索,BrainRank使得质量和相关性更好了。我们看到,一个重要的原因是端到端的系统性的解决方案,而不是由一堆的分而治之,一环扣一环的子系统构成。也就是说,分词,词性,语法,语义,等,都自动嵌入或是隐含在大系统中,被系统自动学习和explore,不再是一个一个独立的,各自独立研发和评估和比拼。要玩就玩大的,解决实际应用问题才是王道。

那么,这么来说,是不是应该反思自然语言处理的传统的分而治之的做法,不再比拼子系统的性能和正确率,而是对于具体的问题场景和任务,研究和发现新的端到端的解决技术算法和方案。
深度分析大数据、深度学习、人工智能等技术,切中实际应用场景,为大家授业解惑。间或,也会介绍国内外相关领域有趣的面试题。 微信号:daiziguizhongren
你喜欢看