返回目录
关灯 护眼
加入书架

第1741章 别被技术细节吓住(2 / 2)

请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,避免出现内容无法显示或者段落错乱。

而且我看得多,想得多。<\/p>

搜索引擎的核心不是技术多炫,而是理解人想要什么,然后从数据里找出来。”<\/p>

他顿了顿:“瀞雯,你告诉团队,别被技术细节吓住。<\/p>

我们不是在写完美的学术论文,是在做一个能用的工具。<\/p>

第一版可以粗糙,可以有问题,但要快,要让用户能用上。<\/p>

改进可以慢慢来。”<\/p>

挂断电话后,贾瀞雯把笔记整理成文档,打印了五份。<\/p>

第二天开会,她把陈浩的话转述给团队。<\/p>

“陈总说,第一版可以粗糙,但要快。”她看着五张年轻的脸,“我们不求完美,但求可用。”<\/p>

李明眼睛一亮:“这就对了。<\/p>

我们总想一次做到最好,结果越想越不敢动手。<\/p>

其实可以先做个最简单的版本,能跑起来就行。”<\/p>

“对!”张涛一拍桌子,“爬虫可以先从几个固定的网站开始,比如新闻网站。<\/p>

这些网站结构规范,容易抓取。<\/p>

分词可以先做基于词典的简单版本,复杂的以后再说。”<\/p>

团队的气氛活跃起来。<\/p>

年轻人就是这样,不怕困难,就怕迷茫。<\/p>

一旦有了方向,哪怕方向不完美,他们也敢往前冲。<\/p>

三天后,新的问题来了。<\/p>

这次是王磊提出的。<\/p>

他在研究分词算法时,遇到了一个具体难题。<\/p>

“贾总,我们试了基于词典的方法,但遇到一个问题。”王磊在白板上写了个例子,“比如‘乒乓球拍卖完了’这句话。<\/p>

怎么分?”<\/p>

他画出两种分法:“‘乒乓球\/拍卖\/完了’,这是说乒乓球被拍卖掉了。<\/p>

但也可以是‘乒乓\/球拍\/卖完了’,这是说球拍卖光了。<\/p>

同一个句子,两种分法,意思完全不一样。”<\/p>

贾瀞雯看着白板上的句子,也皱起眉。<\/p>

确实,这太难了。<\/p>

当晚的电话汇报,她重点说了这个问题。<\/p>

陈浩听完,没有马上回答。<\/p>

“这个问题很关键。”他说,“中文的歧义切分是搜索引擎必须要解决的。<\/p>

这样,你让团队等一下,我想想。”<\/p>

电话挂断了。<\/p>

贾瀞雯以为陈浩要思考几天,没想到第二天一早,她就接到了电话。<\/p>

“瀞雯,我画了个图。”陈浩的声音听起来有些疲惫,像是熬了夜,“我让助理去传真给你,你看一下。”<\/p>

半小时后,传真机响了。<\/p>

五页纸,上面是手绘的流程图和说明。<\/p>

贾瀞雯拿起来看。<\/p>

第一页是总览,标题是“中文分词歧义处理逻辑”。<\/p>

后面四页是详细的流程图,每一步都有说明。<\/p>

她看不懂技术细节,但能看懂思路。<\/p>

陈浩提出了一个“双向最大匹配”的方法。<\/p>

从左到右扫描一遍,从右到左再扫描一遍,比较两种结果。<\/p>

如果一致,就用这个结果。<\/p>

如果不一致,就启用歧义处理规则--检查上下文,查词典,甚至用简单的概率统计。<\/p>

最/p>

贾瀞雯把传真复印了五份。<\/p>

团队看到后,会议室里炸开了锅。<\/p>

【跪求礼物,免费的为爱发电也行!】<\/p>