当时着名的雅\/虎和其它互联网公司都试图解决这个问题,但都没能有一个很好的解决方案。
直到1998年前后,两位斯坦福大学的博士生,拉里·佩奇和谢尔盖·布林一起发明了着名的pageRank算法,才完美的解决了网页排名的问题。
正是因为这个算法,诞生了谷\/歌公司。
pageRank是一种通过网页之间的超链接来计算网页重要性的技术。
以谷\/歌创办人Larrypage之姓来命名,谷\/歌用它命名也体现了该算法的重视程度。
该算法可以通过计算计算出数值体现网页的相关性和重要性。
pageRank通过网络浩瀚的超链接关系来确定一个页面的等级,把从A页面到b页面的链接解释为A页面给b页面投票,谷\/歌根据A页面的等级和投票目标的等级来决定b的等级。
简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
该算法把整个互联网可以看作是一张有向图图,网页是图中的节点,网页之间的链接就是图中的边。
借助该算法可以衡量不同网页的根搜索关键词的关联程度从而对网页排序。
在很长一段时间内,当你在谷\/歌键入关键词后得到的搜索信息。
搜索信息里那一系列网页对应着的网页排列顺序就是依托pageRank算法进行排序的。
这个算法的重要性可见一斑。
pageRank算法不止用于搜索引擎领域。
还跨界进入了自然语言处理领域。
在NLp方面大名鼎鼎的textRank算法就是在pageRank算法之上而来的。
而textRank算法一向是抽取式摘要算法的核心算法。
虽然目前textRank算法主要用于自然语言处理方面。
但并不代表这个算法不能应用于搜索方面。
毕竟textRank算法和用于搜索的pageRank算法本是同根生。
而林灰搞得生成式文本摘要算法虽然表面上看是文本处理算法。
但事实上也有作用于未来搜索领域的潜质。
相比于pageRank算法对网页超链接抓取排序。
有了GtSA算法,谷歌可以更进一步直接对pageRank算法下排名靠前的网页内容进行抓取获取相应的信息。
按照信息和搜索关键词的关键度再进行二次精确排序。
这无疑可以大大提高谷\/歌搜索的准确度。
尽管以现在的技术将生成式文本摘要算法嵌套在pageRank算法之下还很难保证搜索高效率。
但谁能保证未来的服务器以及计算力水平不会突飞猛进呢?
万一之后技术能够暴涨呢?
而且就算短时间内谷歌无法将该技术用于搜索领域。
生成式文本摘要算法表现出的强大的文字处理能力也是很值得谷歌重视的技术。
反正从谷歌下达的任务的措辞来看。
对于生成式文本摘要算法,谷歌不仅重视。
而且急切渴望获得该技术。
……
然而作为具体的执行人员,对于谷歌提出的任务:
——评估LINhUI提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现
伊芙·卡莉就很无语。
或许在那些屁股决定脑袋的人心中。
清楚技术路线了,技术复现能够实现与否只是时间长短的问题了。
但事实哪有那么简单。
反正进行了一晚上尝试的伊芙·卡莉发现想要进行复现很难。
抛开LINhUI提出的算法技术本身不谈。
就是LINhUI在生成式摘要算法专利中顺手牵羊搞定的那个“Lh文本摘要准确度衡量模型”
其他团队想要从无到有的构建一个同样的模型都有亿点困难。
说起来Lh文本摘要准确度衡量模型的构建过程思路倒是很清晰:
第一,运用语言模型来评估算法生成语言的流畅度;
第二,使用相似度模型评估文本和摘要之间的语义相关性;
第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
然鹅也仅仅是说起来很简单而已。
说到把大象放进冰箱也很简单同样是三步:
——打开冰箱门,放进大象,关上冰箱门。……
本章未完,请点击下一页继续阅读!
本站网站:www.123shuku.com
直到1998年前后,两位斯坦福大学的博士生,拉里·佩奇和谢尔盖·布林一起发明了着名的pageRank算法,才完美的解决了网页排名的问题。
正是因为这个算法,诞生了谷\/歌公司。
pageRank是一种通过网页之间的超链接来计算网页重要性的技术。
以谷\/歌创办人Larrypage之姓来命名,谷\/歌用它命名也体现了该算法的重视程度。
该算法可以通过计算计算出数值体现网页的相关性和重要性。
pageRank通过网络浩瀚的超链接关系来确定一个页面的等级,把从A页面到b页面的链接解释为A页面给b页面投票,谷\/歌根据A页面的等级和投票目标的等级来决定b的等级。
简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
该算法把整个互联网可以看作是一张有向图图,网页是图中的节点,网页之间的链接就是图中的边。
借助该算法可以衡量不同网页的根搜索关键词的关联程度从而对网页排序。
在很长一段时间内,当你在谷\/歌键入关键词后得到的搜索信息。
搜索信息里那一系列网页对应着的网页排列顺序就是依托pageRank算法进行排序的。
这个算法的重要性可见一斑。
pageRank算法不止用于搜索引擎领域。
还跨界进入了自然语言处理领域。
在NLp方面大名鼎鼎的textRank算法就是在pageRank算法之上而来的。
而textRank算法一向是抽取式摘要算法的核心算法。
虽然目前textRank算法主要用于自然语言处理方面。
但并不代表这个算法不能应用于搜索方面。
毕竟textRank算法和用于搜索的pageRank算法本是同根生。
而林灰搞得生成式文本摘要算法虽然表面上看是文本处理算法。
但事实上也有作用于未来搜索领域的潜质。
相比于pageRank算法对网页超链接抓取排序。
有了GtSA算法,谷歌可以更进一步直接对pageRank算法下排名靠前的网页内容进行抓取获取相应的信息。
按照信息和搜索关键词的关键度再进行二次精确排序。
这无疑可以大大提高谷\/歌搜索的准确度。
尽管以现在的技术将生成式文本摘要算法嵌套在pageRank算法之下还很难保证搜索高效率。
但谁能保证未来的服务器以及计算力水平不会突飞猛进呢?
万一之后技术能够暴涨呢?
而且就算短时间内谷歌无法将该技术用于搜索领域。
生成式文本摘要算法表现出的强大的文字处理能力也是很值得谷歌重视的技术。
反正从谷歌下达的任务的措辞来看。
对于生成式文本摘要算法,谷歌不仅重视。
而且急切渴望获得该技术。
……
然而作为具体的执行人员,对于谷歌提出的任务:
——评估LINhUI提出的算法实现的可行性,并根据实际情况考虑能否短时间实现复现
伊芙·卡莉就很无语。
或许在那些屁股决定脑袋的人心中。
清楚技术路线了,技术复现能够实现与否只是时间长短的问题了。
但事实哪有那么简单。
反正进行了一晚上尝试的伊芙·卡莉发现想要进行复现很难。
抛开LINhUI提出的算法技术本身不谈。
就是LINhUI在生成式摘要算法专利中顺手牵羊搞定的那个“Lh文本摘要准确度衡量模型”
其他团队想要从无到有的构建一个同样的模型都有亿点困难。
说起来Lh文本摘要准确度衡量模型的构建过程思路倒是很清晰:
第一,运用语言模型来评估算法生成语言的流畅度;
第二,使用相似度模型评估文本和摘要之间的语义相关性;
第三,为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
然鹅也仅仅是说起来很简单而已。
说到把大象放进冰箱也很简单同样是三步:
——打开冰箱门,放进大象,关上冰箱门。……
本章未完,请点击下一页继续阅读!
本站网站:www.123shuku.com