刘韧网络创业(俱乐部)天津峰会系列其七
霍刚:智能计算技术如何辅助网络创业
霍刚: 海量信息市场总监。海量信息是从事中文智能计算及信息数据挖掘技术的理论研究、技术开发,并在核心技术基础上提供相关基础件产品和数据挖掘服务的知识创新型企业。海量一直致力于推动语言信息处理由字符水平提升至语义水平的中文智能计算技术发展,并在基础理论、应用实践和产品化方面确立了行业领先地位。产品包括海纳、海量剪影、中文智能分词、中文全文智能检索、海量智能处理包、蜘蛛等。
霍刚:因为这次题目是刘韧老师的网络创业的一个题目,所以我是想从智能计算技术如何辅助网络创业的角度来介绍一下。
一、网络建设的四个关键问题
作为网络创业,网站是大家的基础,创业过程中它是一个载体,我们要针对网站考虑,我们在建网站最关心几个问题会是什么?首先网站的流量如何增加?第二个如何增加搜索引擎的搜索量和结果排名?第三做了网站肯定有流量,有用户群,我们如何增加网站的粘度?第四就是如何增加网站额外的收入。
我从这四个方面先简单说一下,我们再进行深入的考虑。
一、如何增加的流量?大家都知道,就是登陆搜索引擎,是必然做的事情,我们在联盟中推广,作一些对网站本身的建议刚才小林也提到,像hao123,通过网址站给我们带来大量的流量。
通过我跟其他网站技术合作,我们跟DoNews.com和P.CN作链接,同时双方共同带来流量,还有就是广告。
上面有一个登录搜索引擎,这会儿也会详细介绍,一会儿从内容方面进行阐述。第三个优化内容页面,从页面的方式来增加网站的粘度,对于搜索引擎优化,我刚才说的搜索引擎已经分称两种,第一种是对网站本身的优化,大家在访问的时候,我可能对网站进行结构化的调整,就是让搜索引擎跟我一起处理,对网站本身的服务器或者访问的速度,针对特殊的关键词作出调整。
第二种我称为对网站页面的优化,搜索引擎在索引我们东西的时候,肯定是搜索页面,通过搜索引擎到达网站的时候是通过内容页进行的,所以对内容页的优化是重点,在这里面我重点说一下内容页的优化。
搜索引擎应该从两个方面考虑,第一如何增加搜索量?首先网站内容越多,理论上讲,内容越多在搜索引擎中的运用的结果就会越多,从而达到你网站的数量就会越多。第二调整网站结构使它更容易被抓取,搜索引擎抓取网站页面的时候会有一定的规则,这里面我们如何把我们的网站结构调整更容易抓取,我们网站要发布成静态页面,尽量少用动态,尽量少用脚本做页面,方便搜索引擎尽快的分析到。我们网站的页面结构相对简单,因为搜索引擎分析不出来的内容肯定要丢弃,这个对你的价值是没有的。第三就是要保持更新的频度和速度,为什么说这一点,大家到网上刚建的时候排名并不会高,当你建的时候搜索引擎会抓你,它不知道你什么时候走,这个抓是有周期如果你不能保持网站内容的更新,搜索引擎再去访问你的时候,你的重要级别越来越往下,有可能你的网站每三天或者每七天才被搜索引擎虚拟的访问一次,抓到你一次,如果你保持持续更新,保持快速的更新,搜索引擎可能认为你这个很重要,因为你的内容多,它就会在每两个小时就会去网站跑一遍,你网站新增的内容就会被搜索引擎搜索到,以后这些内容,新增的内容更容易被展现在搜索引擎的前面,到达你的流量自然会增加。这是我从如何增加搜索量商来说的。
第二点我们怎么能够提升搜索引擎的排名?刚才说搜索量增加了,是不是网站排名就会大幅度上来呢?也不一定,比如你内容多了量会有涨,但是斜率会更低,但是怎么能提升,这个斜率会是低的呢?
从搜索引擎到达网站的大多数是由最终页面过去的,并不是从搜索引擎直接到首页,我们现在做处理的时候,只是针对某一些关键词做处理的话,你的内容优化并不高。尤其像刘老师讲的你这个内容要是转别人的,又不是你自己的,这个内容本身有过,有过的内容你再发一遍为什么要把你放在前面,你肯定要在后面。所以需要对内容进行关键词的优化,让搜索引擎在访问到你页面的时候,它分析的时候,你这个关键词对你这个内容更为重要。你原来引用的页面没有这块内容,你的流量就会多,所以内容要做关键词的优化。
“网页增肥”这个概念可能有写人听过,但是我接触过搜索引擎的概念,他说的网页增肥是另外一种形势,大家经常捕捉的方式是通过抓取,通过蜘蛛程序去做,完全发布搜索引擎对你的价值不会太高,因为网站说的东西已经有了,你再发布已经没有太大价值。有些人发布的时候把内容打散,把两篇内容各切一段再拼出来,变成一些新的内容放上去,搜索引擎做搜索时,会认为这些东西是新的。这些方法可以做,但是我不建议这么做,为什么?因为你这些做法完全就是欺骗搜索引擎,但是你不能欺骗你的网站访问者吧,那个访问量其实是零,访问者从搜索引擎第一页看见了两个内容没有一点相关,就会关闭掉,所以那个没有任何价值。可以通过另外一种方式就是对内容进行补充。增加你这个网站的,使本身所引用别人的内容变成新的内容,让搜索引擎再去判断。
还有一个就是配上图,有图和没图有很大差距,这些是从搜索引擎方面增加网站的流量。
如果增加粘度,我们首先看两个例子,这是刘老师的DoNews的结果,大家在这页面上刘老师展现非常丰富,不光是把内容放在那,上面有一个导读(黑框),它在旁边看到有摘要,下面是关键词,再下面就是相关的企业、相关人物、相关的产品、相关的网站,很丰富的一个展现形式,并且在相关人物、相关企业下面都有一个链接。这是一个例子,第二个例子还是刘老师的DoNews,它在每篇内容底下都有相关的文章,跟其他相关文章的链接。我们从这个角度上来讲如何增加网站的粘度,作为一个网站访问者来说我们都喜欢看专题,这个页面展现的越丰富越好,这是我们希望的。我所提出来的我们将每一个内容页作为一个专题的方式来制作。就像第一个截图,它是以内容为主,旁边辅助了其他的因素,其实是帮浏览者做了一个筛选。这是对内容页做一个小专题。
同时我们要增加的更多的站内链接,尽可能为网站的访问者提供快捷的到达其他网站内容的途径,这样就很容易理解,你增加这些链接,访问者对这些内容很关心的话,他可能关心旁边的,他看到有链接就很容易点击,你就可以到你的其他界面您的访问量自然会增加起来。
三、如何增加网站的额外收入,我自己也有站,我也在考虑的事情,在刚建站的时候我们流量都少,排名也低,做广告的收入是很少的,有几种形式是可以增加额外收入的。第一个就是注册GOOGLE adsense,注册后等待用户看到这个网站去点击或者浏览。另一方面加入各种广告联盟,这个也比较简单,加入联盟之后会有一个广告代码,根据点击次数取得分数。
第三个方式,这个方式对于我们的刚建站的网站更有帮助,就是说在内容页面加入锚点词链接广告。
锚点词是什么?锚点词不是关键词。就是我们看到这个词的时候,我们有点击的欲望,我想知道这个词背后所包含的东西,这样的词就是“锚点词”。我们在文章内容中加入这样的词语是很容易被访问者所点击的,这个也是一种方式,这是关于如何增加网站的额外收入。
刚才说到这些事,大家可以想像,做到这些方面,你的内容边际成本可能会非常的高,但是这个成本只能通过增加人来解决吗?其实不是,这里面哪些问题是能用智能计算技术得到解决的呢?来看一下:发现内容、增加内容、编写关键词、网页增肥、内容页面优化、相关文章、站内检索,这些都是通过技术来实现,这个是不用去消耗的。
二、海纳如何辅助资讯类网站进行建设
海纳如何辅助资讯类网站进行建设的,我来介绍一下我们是如何帮助网站去维护的。
首先海纳是什么?我们在做海纳这个产品的时候,在北京调研了各类的网站,有100家。我们和这些网站的站实际工作者进行了沟通,从中我们觉得网站里面主要一个人群就是编辑,哪怕是我自己的站。我们对于编辑作了一个分析,其实编辑主要就是干发内容、排首页、做专题这些事。编辑在工作时有四个工作步骤,第一个步骤就是“找”,我调研的一些网站里面,编辑就是去写稿、约稿,代表一下自己的观点,就是像博客一样。
还有就是网站没有自己原创的能力,他的内容就是依靠其他的网站的东西,这些人就需要不停的盯人家的网站,当人家有了新东西的时候,有了变化的时候,他看看人家的东西是不是适合他的需要,也就是咱们常说的Ctrl+C、Ctrl+V的工作,在我们自己的论坛发布,调整一下结构,这就是浏览网页发现内容。发现内容还有一种形式,就是大家会往搜索引擎找,有两种方式,一个是找新,一个是找另类。
第二个步骤是“转”,我们说的Ctrl+C、Ctrl+V,拷贝粘贴,这个东西,一般就会有手工,还有一个是通过抓取程序,就是蜘蛛程序去抓。第三个步骤我们称之为“编”,这里面有几个工作,其实编的工作,我在调研里面发现,稍微老一点的网站,他编的动作会多,稍微小一点的网站在编写这个动作不是特别的仔细,做的动作会少,比如说一般的编可能是改标题、改内容,主要是改标题,其他的没有做,稍微正规的网点,一个是改标题,一个是改内容,然后他会调版式,会要求编辑写关键词。如果咱们不做这个动作,你发东西没问题,但是将来对引擎的优化做不到。这是编的工作。最后一个步骤就是“发布”。我们在调查过程当中总结了实际大家的工作时间,发现是这么个比例,在“找”上花费的时间用了40%,很少一部分时间用在“转”上,大约15%左右,这15%就是不停的Ctrl+C、Ctrl+V的动作,“编”的时间占了40%,40%的时间主要用在关键词和摘要的编写上面,还有一些时间是用在图片身上,剩下5%的时间是“发”。
我们使用海纳可以解决哪些问题?海纳是如何辅助编辑的,第一在通过编辑的过程,刚才说的那四步在“找”上面,我会去盯一些网站的更新,看看有没有新鲜的东西,我需要不停刷人家的页面,在这个刷的过程当中,可能每隔半个小时就要刷一次,这个很麻烦,更新到哪儿了还要找,不够及时。这样的话,我们在海纳里面提供一个叫“页面监控”的系统,这就不需要你刷人家的页面,它会自动告诉你人家哪个是更新的东西,新的放在前面,旧的放在后面就可以了。它可以监控很多东西,你就不用刷新了。
海纳里面还集成了一个我们称之为“源搜索”,这里面就是把GOOGLE和百度做配置模板,对搜索引擎进行分析,然后统一展示,这是通过互联网的流动。同时还在海纳里面为每一个客户端提供一个素材库的功能,这个就相当于一个小的搜索引擎,这里面只是你关心的内容,不会有其他的东西,它的更新频率会比其他的搜索引擎更高。
在“转”上来说,我们做过统计,如果你要很仔细转一篇文章,他说做的动作是多少?就是Ctrl+C、Ctrl+V,然后ALT+Tab切换,点中那边的记录,这个动作一遍的处理次数是31次。海纳提供一个方式,可以直接让你在IE里面看到这篇文章的时候,只要一个操作就可以直接发布你的页面,你只要再点页面就可以了。
如果是多页的情况下,当这个内容是多个页面,比如咱们经常做的培训、评测类的东西,每一个页面都要做Ctrl+C、Ctrl+V,海纳提供一个方法当你看到这个多页的时候,只要四次操作就把能全部的东西提交给发布系统,然后发布系统再发布。
针对“编”来说,改标题、设频道、做页面版式调整,跟网页本身很相关,这些无法用自动的方法去实现,刚才说这个“自动提取关键词”、“自动编写摘要”可以自动的实现,系统摘取十个关键词,你只要筛选就可以了。
刚出来一篇文章你们要写关键词要花多长时间,现在你不需要做这件事,你只要在十个关键词里面筛选、删就可以了。我刚才也提到了,我们提供这个关键词我们主要是给搜索引擎看,让搜索引擎命中你,比如关键词多按道理说关键词越多越好,删的数量它也能控制。
同时对于导读来说,刚才说的摘要,有些编辑问我,如果强制要求写,但是他怎么做,就是文章的前20个字,大部分人都是这么干的,这个方式对于使用者来说没有意义,对于搜索引擎来看没有价值,海量提供自动的导读的分析技术,自动做一段摘要,是从内容中抽取出来的,放在你文章的前头,这个时候你就能实现你的增肥的效果,这是通过导读来做的。
第三个是自动分类,我们在里面设置一些分类的方法,通过对内容进行处理,指定作一下对应,一部分解决频道的问题但不是全部。是自动分类的。
“发”这个动作是发布系统做的。
在使用海纳之后我们能为编辑节约时间是多少?从“找”上来说,节省时间至少是70%,因为你拿计算机打开10个页面,然后挨个刷新一边,然后找到内容,你自己可以想想需要花多少时间。但是在海纳里面你只要一个按纽就可以出来了。
在“转”上,你Ctrl+C、Ctrl+V那个动作虽然简单,但是花的时间也不是特别长,但也是特别耗时。海纳只提供一键式的方法,只需要几秒钟的时间就能完成,这个节省时间在15%,次数能节省30次。
对于“编”来说我们只考虑关键词、导读这两件事,这个时间可以节省90%,这个你不需要去思考、不需要阅读,只是对结果进行处理。这是对编辑要求也会降低,要写出关键词和导读,对编辑的业务素质要求是非常强的。
整体节约的时间会是多少?54.25%。就是一半以上的时间可以节省掉,最后“编”的部分40%的我算了6分,只是算了编关键词和写摘要的时间。
转载次数上可以节省多少呢?如果按一个人一天处理一百篇来看,一个人可以一天节省3000次。
你可以想象一下,尤其是个人自己建站的时候,工作当中工作量的节省可以省下多少?
在使用海纳前后我做了一个对比,这个是按五个人左右团队一个网站来做的分析。从转载量上来说,原先一个人一天也就是做一百篇左右,好一点的、工作时间长点的,我说的工作时间是一天,10-12个小时,他可能作到150篇或者180篇,这是已经很强的。
在使用海纳之后,这个人可以一天做600篇,这是我们实际统计的数字。
关键词原来要做150或者100篇那个时候关键词肯定是不行,现在用这个之后,做600篇的时候还能做关键词。
如果5个人,用海纳一天能做3000篇,对于搜索引擎这已经是中等规模的,这对工作会有很大的帮助。
这是海纳一些功能的帮助,我们能够提供页面监控,自己添加一些页面到监控的地址,可以制定一些标准,比如博客不要,论坛不要,我要一个特定的栏目,你可以自己筛选。
上面还有一个搜索,我们有一个素材库搜索,你可以把配置文件放进去,同时在一个页面里面展现十个搜索引擎的结果,而且这里面都没有重复的东西。我们提供一个相对较小的素材库,对于信息收入来说就是转的东西来说,这里面我们提供单页的收录,就是在IE里面,在浏览器里面,一个操作直接到发布系统。还有一个多页合并的方法。页面监控这个更要支持,你的目的就是把监控的内容往网站上发,监控的内容最直接发到网站上去,还有素材库进行搜索。
在“编”上面,素材库是我们一个内部库,它提供一些内容分析的技术,我们在后期还会逐渐加强这些东西。在智能加工我们涉及到哪些技术?大家应该用过“蜘蛛”这样的软件,像“火车头”之类的抓取,如果你抓一个站的时候,抓一个内容的时候,你需要事先作很多动作,你需要做太麻烦、这个过程是很复杂的,而且不是一般的编辑能做的,像我要是做我也的琢磨半天。海纳里面不需要你去这么做,因为它能自动分析页面结构,给你一个正确的结果,同时这里面应用关键词的自动提取技术、自动分类技术、自动导读分析技术、自动消除技术,在海纳里面都有所体现。
我的介绍就到这了,谢谢大家!
