lu's profilelaolu's blog PhotosBlogLists Tools Help

Blog


    8/17/2005

    Google 比 Yahoo! 大166.9%

    搜索新世界。国内,百度打着“中国的 Google”去了 NASDAQ ,阿里巴巴瞄着电子商务 + 搜索去了 Yahoo! 。一个比一个大。国外,Ask Jeeves, MSN 相继推出了点击付费的广告体系,Google 引进了 rss feeds,还有更多 VC 催生的搜索引擎在涌现。一个比一个强。如果说,Google 找到了搜索的盈利模式,那么 Yahoo! 的参与则促成了一个高速增长的产业。

    8月8日 Yahoo! 宣称扩大了其搜索引擎的索引:覆盖网上 208亿个“目标”,有 192亿文档、16亿图像、5千万声频/视频。相比之下, Google 索引了 113亿个“目标”,有 82亿网页、21亿图像及其讨论组的资料。看起来,Yahoo! 比任何其他引擎都要大。不过,这样的骄傲也招引了很多质疑。University of Illinois 的 NCSA 有人做了比较研究,《 A Comparison of the Size of the Yahoo! and Google Indices 》:

    • 假设:一,两个引擎都返回与特定关键词匹配的所有相关结果;二,如果 Yahoo! 的索引比 Google 大两倍,那么进行大量随机搜索,Yahoo! 的结果应该是 Google 的两倍。
    • 方法:一,由于两个引擎都截断超过 1000的搜索结果,该研究忽略命中数量大于 1000的搜索,集中比较结果数在 1000以内的搜索;利用含有 135,069个单词的词表和 PERL 脚本,每次随机抽取 2个词,共进行了 10,012次搜索为样本。
    • 结果:一,Yahoo! 总计命中 146,330个结果,Google 总计命中 390,595个结果;二,只有 3%(307个)的搜索 Yahoo! 结果比 Google 更多,其余的 97%(9676)搜索都是 Google 返回结果数量更多。
    • 结论:平均而论,Google 的搜索结果要比 Yahoo! 大 166.9%。

    Yahoo! 对此辩解,这样的研究只能说明索引怎样返回结果,并不能表明索引里有多少文档,真正重要的是相关性。

    有意思的是,Yahoo! 先是宣布其索引最大,遭质疑后又解释说相关性更重要。两次都未能提供有效的证据,有打自己耳光的嫌疑。由于缺乏公认的标准,要验证搜索引擎的索引规模,几乎不可能。搜索结果的相关性,更加依赖评估者的主观判断。这两方面的检验都比较困难,一般只能依据足够样本的统计来推断。

    都说 Google 聪明,Yahoo! 岂是傻子。这样有些冒失地宣传,更大程度上反映了 Yahoo! 在搜索市场中的一些心态。02年底到03年中期,Yahoo! 连续吞下了AltaVista、Inktomi、Overture 等数家知名引擎,然后踢掉了与 Google 的合作,现在底气充足,权当是吃饱之后,打个响亮的嗝吧。这个倒是有数字为证的:6月,美国搜索引擎市场,Google 的份额为 36.9%,Yahoo! 为 30.4%,差距不那么大了;上半年,Yahoo! 赚了 9.59亿美元,Google 挣了 7.12亿美元。

    另一方面,Yahoo! 的声音,多少显得 Google 不如原先那么强劲。与 Yahoo! 的分道扬镳,Google 花费了大量精力培育用户和市场,从品牌到市场广受好评。但同时,Google 对搜索技术的研究,多半属于改进性质,力度似乎不大,还没有重大的推进。不少大学和新兴的技术公司,正在盯着 Google ,加紧研发各种智能、个性、语义、人性的下一代搜索引擎。

    在以技术为基础的领域,保持技术上的领先,也就控制着市场上的主动。Yahoo! 的叫嚷,也就是这么个意思。当然,搜索市场绝不会是 Google 的疆界,但看家本领也不能这么容易就拱手相让的。

     

    Comments (6)

    Please wait...
    Sorry, the comment you entered is too long. Please shorten it.
    You didn't enter anything. Please try again.
    Sorry, we can't add your comment right now. Please try again later.
    To add a comment, you need permission from your parent. Ask for permission
    Your parent has turned off comments.
    Sorry, we can't delete your comment right now. Please try again later.
    You've exceeded the maximum number of comments that can be left in one day. Please try again in 24 hours.
    Your account has had the ability to leave comments disabled because our systems indicate that you may be spamming other users. If you believe that your account has been disabled in error please contact Windows Live support.
    Complete the security check below to finish leaving your comment.
    The characters you type in the security check must match the characters in the picture or audio.
    lu lao has turned off comments on this page.
    Mar. 26
    Picture of Anonymous
    laolu wrote:
    如果搜索引擎在索引文档时,未能全文倒排(比如只索引前面的部分文本)为关键词的话,那么索引规模更大,并不一定会使搜索结果更多。
    如果搜索引擎在关键词匹配时,出于提高搜索准确性和针对性的考虑,设置了一些匹配的响应条件(比如词频等),那么也可能导致搜索结果的数量减小。
    所以,搜索结果的多少,与索引规模的大小有很大的关系,但不完全取决于索引规模。正因为这样,NCSA 的研究做了两个前提假设。
    Aug. 19
    Picture of Anonymous
    cnsns wrote:
    从文中提取并扩展三点:

    1.在我跟朋友以及跟下属讨论时,一直强调的是“有效性”,而对“真实性”放在第二位。对某个关键词的搜索,我想90%以上的人只看第一页,而且肯定99%以上不会去看第五页。在我的搜索行为中,如果第一关键词没有达到作用,我一定再加第二关键词,而不会进行翻页工作。因此在我看来用户地一个搜索引擎的评价主要来至于前三页,如果前三页没有,用户会觉得失望。所以如何提高前三页的有效性,这才是搜索引擎在技术环节最主要要考虑的。

    以上的问题从根本上是说:我们是重视质,还是量。我想对于GOOGLE和YAHOO那样的企业,做了搜索引擎这么多年,质才是他们最先要考虑的,而可能SOUGO会在与别人比量。但正如文中所说的“加紧研发各种智能、个性、语义、人性的下一代搜索引擎”,这在“有效性”后就提出另一个东西,叫“针对性”,我们可以看到一个企业或者一个社会服务的方向,第一步:得有,量要上去;第二步:得好,普遍用户的满意;第三步:得精,个性化服务的提出。

    2.“上半年,Yahoo! 赚了 9.59亿美元,Google 挣了 7.12亿美元”,这个比较从企业整体来说是合适的,但从目标市场来说也有偏差,GOOGLE的收入主要来源于搜索,而YAHOO是多元化收入,其中甚至有接入;

    3.“Google 对搜索技术的研究,多半属于改进性质,力度似乎不大,还没有重大的推进”,我个人觉得有点忧天了,GOOGLE不仅仅是技术型企业,他现在还是资本型性业。
    Aug. 19
    Picture of Anonymous
    ZhengYS wrote:
    从我测试的几个中文关键词情况来看,yahoo确实比google返回的结果多。
    Aug. 19
    Picture of Anonymous
    lovelock wrote:
    到现在为止,在对关键词的理解能力上,GOOGLE要比雅虎好,我觉得这是雅虎索引量比GOOGLE大可能搜索能力却差很多的原因。

    从语形到语义,应该是必然逻辑,GOOGLE不是傻子,不可能不花力气在上面,而且他也一定在盯着研究前沿,一旦有机构或者公司在这方面有大的突破,凭借GOOGLE手里的真金白银,一定会举起招安的大旗的。
    Aug. 18
    Picture of Anonymous
    蔬菜瓜果 wrote:
    自从正式上市之后,google就真正的变成了一个企业(公司),要挣钱,要有利润,否则股票下跌,会导致一连串的恶性反应。在费用不变得情况下,市场开拓跟研发就成了跷跷板的两头,一边轻,一边就重。作为google的fans,真希望它能加大研发的力度,呵呵,毕竟从搜索来说,我感觉google是真正贴近“用户”的。
    Aug. 18

    Trackbacks (1)

    Weblogs that reference this entry