Google的潘多拉星球：被用户教育的搜索引擎

来源：作者：时间：2011-10-10

　在搜索引擎的运行过程中有四个过程，crawl（爬行）指派出蜘蛛在万维网上搜集信息，index（收录）则将这些信息整理储存，然后通过 relavance（相关性）选出适合信息，最后deliver（传送）给需要答案的用户。问题是，在这四个过程中，只有crawl、index和 deliver像是机器能完成的任务，完成relevance 则需要人类的思维。如果我们将搜索引擎想像成一个人，那么它的工作核心，就是理解人类用户的知识和认识，它需要“懂得”用户的提出问题，也需要“懂得”相应的答案，否则就无法完美完成“匹配”的工作。

　　在上世纪90年代初期，搜索引擎这种东西刚出现的时候，其工作机制离“人工智能”还很远很远。google之前的搜索引擎如Altavista、Excite等等，其工作机制基于Priority（重要性排名）。排名只是一个指标，可以从很多纬度和角度来设立，比如说某个页面的流量越大排名就越高，或者页面上出现搜索词的次数越多则排名越高，等等。显而易见的，这类排名系统很容易被作弊手段攻破，比如说在页面上隐藏一堆与页面实际内容无关的搜索词来吸引搜索引擎的注意。

　　当时，Google也在给页面排名——无论如何，当搜索引擎为用户呈现结果的时候，多个结果总要按一定顺序排列出来才行。而Google的精彩之处在于Page Rank机制，根据某个页面与其它页面的交叉链接程度来确定页面内容的可信度。例如，如果某个含有“比尔克林顿”字样的页面被白宫的网站引用了，那么这个页面与比尔克林顿的关联就很可能值得信赖。打个比方来说，其它搜索引擎的排名根据是“页面声称自己很靠谱”，而Google的排名则根据“很多人说这个页面很靠谱”，相比之下显然后者更为可靠。

　　这种可靠性确保Google迅速击败对手，成为网络用户搜索的不二之选。大量的用户涌到Google，大量的搜索行为时刻发生。每次搜索都意味着用户提出了问题，Google给出的搜索结果则是Google对这个问题的回答。接下来还有更奇妙的事情：用户对 Google的搜索结果进行评价——如果他们点击了前几位的结果链接，则意味着Google答对了这道题；如果他们翻了好几页，或者更换搜索词重新尝试，则意味着Google的本次回答不靠谱。

　　Google迅速认识到了这一点：用户在教育搜索引擎。就好比老师教育学生并用考试来考察，学生答对问题就给个勾，打错了就画个叉，然后换一道类似的题，学生最终答对就意味着他/她掌握了这个知识点。每一位用户在搜索的时候都在教育 Google，Google不断尝试新的答案，直到它有一天在这个问题上不断获得对号——它学会了。

　　这大概是历史上最精彩的用户与产品交互促进的案例。用户的使用过程本身帮助产品不断改进，而产品的改进反过来助益用户。网络产品的瞬时性和直接性，以及Google所拥有的顶级科学家与工程师，使得搜索引擎的学习过程变为现实。hot（热）与boiling（沸腾）意思相近，puppies（小狗崽）与dog（狗）差不多一样，但是与hot dog（热狗面包）相关的是面包馒头芥末酱，而不是boiling puppies（沸腾的小狗崽）！基于每秒钟都在大量积累的知识和常识，搜索引擎开始自动识别用户的语言并试图揣测用户的真实意图。