新闻动态

谷歌学术搜索的风雨十年

36氪/Chientung 2015-1-15 3:59:06

在今年《自然》杂志开展的一项调查中,60% 的科学家表示自己经常使用该项服务。日前,《自然》杂志对话谷歌学术共同创始人 Anurag Acharya,聊了聊谷歌学术的过去和未来。

问:你如何知道哪些文献需要检索?

答:“学术”是学术领域的其他人都认为是学术的东西,这听起来像是一个递归的定义,但确实是这样的。我们通过爬虫抓取所有网页。以一篇新发表的博客为例,我们会判断它和其他学术文章存在何种联系。如果很多人引用它,或者它引用了很多人的文章,那么它可能具有学术价值。这里面并没有神奇的公式可以套用,只能从很多特性中寻找证据。

问:创建谷歌学术的想法从何而来?

答:我在 2000 年来到谷歌,之前则在加州大学圣芭芭拉分校从事学术工作。很明显,假如继续从事学术研究,我不可能产生比待在谷歌更大的影响 -- 使世界各地的人们都可以找到信息。因此,我放弃了学术道路,花了 4 年时间管理谷歌网页检索团队。那是一段异常忙碌的日子,整个人可以说是心力交瘁。

Alex Verstak(注:Acharya 在网页检索团队的同事) 和我决定休假半年,并试图利用这段时间让学术文章的搜索变得更加方便快捷。当时的想法并不是创建谷歌学术,而是想提高谷歌在用户利用网页搜索学术文章时的排名。不过,随之而来的问题是如何判定搜索用户的意图:他们需要学术性的结果或者只是个门外汉? 我们据此建立了一个内部原型,谷歌学术变成了一种非常有用和重要的服务。

问:这个想法很快就取得了成功吗?

答:很快就广受欢迎。谷歌学术启用后,使用量呈指数级增长。一个重要的差别在于我们按照与用户请求的相关性排列搜索结果,这是此前的学术性搜索服务无法做到的。它们采用的是倒序方式,即首先提供最新的结果。我们还通过爬虫抓取到研究论文的全部文本,尽管在一开始并未将所有出版商的全部文本包括进来。

问:花了很多年才说服文献出版社允许你们抓去全文,当时是不是感觉很困难?

答:这得考虑到十年前的情况,那时候网络搜索还很轻量 -- 人们更愿意搜索 Britney Spears 的图片而不是学术文献。但我们知道有纯粹的学术搜索请求,我们不得不说服出版商,我们的服务会为他们带来更多的流量。当然在谷歌学术搜索推出前我们就与他们有合作。

问:2012年,谷歌学术从谷歌主页搜索选项的下拉式菜单中消失。你是否担心谷歌学术的地位可能下降或者被砍掉?

答:不担心。我们的团队在不断成长中,从成立之初的两个人发展到现在的 9 人。很多人或许会将谷歌学术从首页菜单中的撤销看成是一种降级,但事实并非如此。这些菜单链接是为了帮助用户从主页转到其他服务,因此会突出那些使用最多的转换链接。如果用户已经知道如何启动谷歌学术,他们就不需要那种转换链接。就是这样而已。

问:谷歌学术如何盈利?

答:谷歌学术到目前还未盈利。其实,谷歌提供的很多服务都不赚钱。谷歌学术的首要定位是回馈学术界。我们之所以成功坚持到现在,就是因为在谷歌看来,这项服务的花费并不高。就访问量来说,谷歌学术同很多谷歌服务相比很小,因此利用广告盈利的机会相对较少。不过,到目前为止我们还没有盈利上的压力。

问:谷歌学术每天的访问量是多少?这项服务能追踪多少文献?

答:我无法回答你,这是一个非常非常大的数字。对于追踪文献的数量也是这样,除了 -- 自从我们推出谷歌学术后,这个数字增长了一个数量级。很多人关心这些数字,但这真没多大必要。我们关注的是用户能否找到他们想要的文献。若果文献本身很少的话,这些数字的确很重要,但我们显然拥有足够多的文献。

问:谷歌学术已经推出了额外的服务:例如作者的资料页和一个推荐引擎。这意味着谷歌学术准备从一个搜索引擎转向成为类似文献计量学的工具吗?

答:既是,也不是。推出资料页的目的还是在于帮助用户找到他们需要的文献。有时候你可能忘了文献的标题,但你可能记得它的作者,这样你就能找到相关文献。你还能追踪某个作者的文献和工作,着同样是查找文献的线索。当然资料页还有别的用途,通过阅读一个人的资料页,我们可以了解他的学术的演化历程、他的学术伙伴们都有谁,甚至可以向他推荐一些他的领域中别的研究人员关注的主题。

问:你担心这种把戏吗 -- 造假的文献通过被谷歌学术检索增加引用量?

:不担心。是的,你可以添加你想要的任何文件。但是,一切都是可见的 -- 你的资料页上列出的文献,引用你文献的文献等等。如果发现你造假,世界上的任何人都能打电话给你,基本上是你的学术生涯就结束了。我们没有看到垃圾邮件正是由于这个原因。我有很多的经验处理垃圾邮件,因为我曾经为搜索部门工作。当人们都是匿名的,垃圾邮件会变得更容易。但如果我要建立的是我的公开出版物的历史,我会比较谨慎。

问:未来谷歌学术会有什么样的改变?

答:我们非常擅长帮助用户找到他们要搜索的文章。不过,下一步我们打算做的一件大事是帮助用户找到他们需要但又不知如何搜索的文章。我们能否让意外发现变得更加容易? 如何帮助每个人在无须翻阅上百篇论文导致一整天任何其他事都干不了的情况下,轻松掌握学术前沿?

我不知道我们将如何实现这个目标。尽管在这方面我们已经做了一些初步努力如推出建议搜索引擎,但离想要的东西还相去甚远。在向用户推送不是其主动搜索的信息时,存在一个本质性问题:内容必须具有相关性,确保我们没有浪费用户时间,但又不能太相关,因为用户已经知道这些文章。

问:怎么帮助用户直接找到数据而不是文献呢?

答:这是一个有趣的想法。在收费文献里搜索数据是完全可行的。但当我们给用户的搜索结果指向一个收费文献时,用户只能看到摘要。对全文检索而言,我们也是依靠提供摘要信息让用户评估某篇文献对他们是否有用。我们还没有针对数据搜索建立类似文本搜索的模型。

问:许多人希望能通过谷歌学术开放API,这样他们可以自己写搜索的脚本或自动获取别人的资料页,在此之上提供更多的服务。这可行吗?

答:我不能这么做。我们自己和出版商合作伙伴都不会喜欢这个想法。我们被允许扫描所有的文献,而不是讲这个信息分发出去。和出版商的合作非常重要,我们因此得以可以继续构建一个对所有人免费的全面搜索服务。这是我们的初心,其他任何东西都是次要的。

问:下一个十年你还会为谷歌学术工作吗?

答:首先我从来没想到我竟然为谷歌学术忙活了十年!我妻子在我(为谷歌学术)工作了 5 年、7 年的时候提醒过我(工作了这么久),而我现在还没离开。谷歌学术是我能想到我能做的最重要的事情,我们的工作使这个星球上最聪明的人更有效率。离开谷歌学术是一个非常有吸引力的命题,而我无法预见它会很快很轻松地实现。

问:当你还是印度理工学院的学生时,你是否想过要是有这么一个免费、有效的搜索引擎该多好?

答:(谷歌学术) 影响了我曾经关注的问题。举例来说,当时没有任何工具可以对只提供摘要的收费文献进行全文检索。我认为这是需要被解决的问题,因为对读者来说,需要知道信息在哪儿。如果你知道一个关键的信息在一篇收费文献里,你可以写信给作者。但在这一点上,谷歌学术有它自己的生命。

问:使用谷歌学术的用户是否有必要担心数据隐私问题?

答:我们采用标准的谷歌数据收集政策,谷歌学术也不例外。我在谷歌的角色主要是负责谷歌学术,所以不会谈太多更宽泛的问题。