,根本就是天方夜谭。电脑肯定是不行的,光脑还差不多。
“联网就联网吧,在程序里预留一些常用算法,断网勉强也能用。”
解决了第一个问题之后,罗辑又陷入了瓶颈。他蓦然想起中文还有一点很蛋疼,那就是没有和英文一样可用于区分人名地名的大小写。
要是仅仅这样也就罢了,关键是有些人的名字起就是一个词语,如果分词程序有智能的话,它一定会把这些人拖出去砍死。比如高峰、汪洋、罗辑……
“这……还是不要砍死了,半残就好。”
罗辑马上停止了抱怨了,再困难也要解决不是?
“到底要怎么做?”
罗辑觉得自己有些天真了,一开始以为有了科技树绝对可以快速的解决问题,可事实上并非如此。之前做无线充电器时,都要用到机械方面的知识,而难度比无线充电更大的语义识别,其交叉的学科只会更多。
“语义识别要什么?电脑编程、统计分析、数据建模……还有语言学?”罗辑看到科技树上显示的内容完全傻眼了,前面的只要的理科内容,不管多难他都不怕,可偏偏最后一项他却没有办法。
让罗辑去看文科知识,那比杀了他还难受。可不学语言学,怎么可能做的出语气识别?
罗辑抓破脑袋也没有想出代替方案,这似乎是唯一的解决方法。想想也是,对语言不熟悉的人又怎么做的出语义识别?作为社交白痴的罗辑,自己都听不太明白别人的话,又怎么让电脑也“听”的懂?
学习语言学?
罗辑硬着头皮只看了一会,就感觉头大如斗,就像熬了好几个通宵,困意如潮水般一*涌来,怎么也挡不住。
这道是个催眠的好方法,罗辑有些哭笑不得。
“只能走一步看一步了。”罗辑决定先将这个问题搁置,等其他能解决的都解决了,再回头来考虑这个问题。
先搭建模型吧。
语义解析得到步骤和前两步很想,都需要一定量的数据支持。好在有小音的帮助,不需要罗辑去亲自搭建语料库,不然光是这一个工程就能让开发时间延长几倍。
繁琐的数据积累永远是最费时间的,不过幸好小音的智能程度提高了,她能替罗辑执行的工作也越来越多,可以说只要语义识别完成,她就和电影里的那些黑科技差不多了。
研发的过程对于别人也许是枯燥的,但对罗辑来说却是让人兴奋不已的。因为在拥有了科技树之后,他基本不会做无用功,任何研究都有一个明确的方向,所以他的研究每时每刻都在向目标推进。
七天后,罗辑在属于自己的机房里长出了口气。现在上他能解决问题都解决了,自动分词系统也趋于实用,至少不会出现乌龙了。一些带有歧义的句子也能分析出来。
比如“独立自主和平等互利的原则”这句话,电脑就能做出两种分析,“独立自主和,平等互利的原则”以及“独立、自主、和平等互利原则”。
但是对于人名应该怎么处理?总不可能用穷举法吧?也就是将所有的名字都输入资料库,但这又会出现一个问题,因为你永远不知道那些父母会起怎样的名字。去公安部找身份证信息?这不现实,先不提这难度有多大,光是暴露了用户*这一条,就能让公司陷入万劫不复。
更何况罗辑还很嫌弃身份证信息的更新速度,办张证都要好几个月!这对于一分钟都嫌长的互联网而言,根本就是无法忍受的好吗?
罗辑感觉头都大了,难道非得去学什么语言学吗?真要去学的话,那个效率不敢想象。如果说罗辑的理科学习效率是一百的话,文科大约就只有二十了。
同时能做出语义识别的知识,也绝对不会简单。
这么想的话,想要做出完整的语义识别根本,不得花好几个月?罗辑倒不是嫌时间太长,只是一想到要看这么久的文科就觉得蛋疼。
罗辑从小就养成了独立思考的能力,长大后更是形成了孤独思考的习惯,加之性格使然,就更加的不会找人帮忙了。
“头疼……”
在罗辑还在苦思冥想的时候,手机久违的响了起来。罗辑的手机很少有人拨打,一般情况除了父母,也就没谁了。
“辅导员?”
罗辑愣了一下,随后惊醒过来,自己貌似半个月没去上课了。别说是华科,就算是三本学校也不会容忍这种情况发生。罗辑不知道该怎么解释,只好硬着头皮接通了电话。
还未开口,那边就传来了辅导员的声音“罗辑同学吗?”
“是我。”
“是这样的,接下来的几天有考试不要忘记了。”
罗辑迷糊的点了点头,差点忘记了自己还是学生这茬,考试什么的更是忘得一干二净。
“好的辅导员,谢谢你的提醒。”
罗辑对他的辅导员并不熟悉,只是在领奖学金的时候有接触。这次他才觉得自己的辅导员很好说话,居然没有提旷课的事。这让罗辑松了口气的同时,又更加头疼了。
真是祸不单行。
语义识别工作出现困难不说,居然还要考试?罗辑感觉自己根本静不下心来复习啊。