第402章 写个搜索引擎玩玩 (第1/3页)
第403章写个搜索引擎玩玩
这年头搜索引擎对于很多人来说还比较神秘,但在二十年后已经是公开的技术了,整个流程和各种pagerank算法都是在网上就能下载到的,关于搜索引擎核心技术的详解,国内外各种书籍出了一本又一本,胡一亭自己就曾经在百无聊赖时分析过多个算法,还曾经想过拉点投资搞个搜索引擎,从IC设计全栈工程师的繁重研发业务下脱身,自己当个小老板,因此对此毫不陌生,完全可以闭着眼睛抄一个出来,在此基础上由技术人员不断更新加强,要抄的话,无论如何,那些都是领先这个时代十几年的算法,拿出手就能立刻秒杀雅虎,把谷歌掐死在襁褓里。
胡一亭见大家都钦佩地看着自己,还以为他们不信却又不好意思说出口,只得笑道:“这真不是什么难事,搜索引擎说白了就三步,第一步下载,把要分析的网页抓下来。第二部是索引,这里面主要是先要写个全文检索引擎,对第一部里面下载下来的文本内容进行预处理,进行智能的分词,然后进行数据清洗,把非关键词和无效内容刨掉,只保留重要部分,搜索的时候其实就是搜索索引,根据用户查询的关键词,在索引里寻找匹配内容,然后展示出来。雅虎就是手工索引,其实本质上就暴露出他们的算法有大问题,图样图森破,幼稚的很。
第三点是真正有点难度的,就是说在匹配内容过多时,怎么排序,怎么把最符合用户搜索目的的内容排在前面,这就有一个排序的算法问题,这里面牵涉到一个打分制度,排序算法要把把高分项目排在前面,这里面牵涉到网站的重要程度和网页的时效性。
但总的来说,让我来写的话,一个礼拜就能拿出产品上线运行。
真的,这真不是什么高深的技术。”
胡一亭解释了一番,可大家哪里对他有什么怀疑,闻言更觉他简直就是技术之神!
参加会议的技术人员都激动不已,觉得胡总真是太牛了!牛大发了!把这样前沿的技术说的跟大白菜似的,这得有多大的底气呀!全国大概再也找不出像胡总这样的第二个人了吧!真不愧是中国数学界的新宠!中国IC业的天才领军人物!中科院计算所的骄傲!国产处理器的希望!全球首款通讯
(本章未完,请点击下一页继续阅读)