而股神通过爬虫搜集来的数据肯定是海量的,至少是t级别的,就是跑到p级别也不算是什么大事。比如1p的数据,它大概相当于250万部电影。人的一生也不过3万天,每天看十部电影,也足够看十辈子的了。
在如此大量的数据面前,莫回必然面临一个带宽问题,很容易想象,出租屋里的小区宽带肯定是不好使的。
现在超级本的运算能力已经获得验证了,应该是比较超常的,但是它的存储能力还未测试,如果存储能力不成的话,莫回还必须为这海量数据寻找一个存储空间。
诸如此类的问题还有很多,如果莫回想要把股神完成,并且上线运行,那么他必须像是老黄牛一样,勤勤恳恳的往前走,把这些挡路石一个个的全部处理掉。
本来这些事就是交给一个公司处理,一个成熟的团队来处理,都未必能够处理得很好,现在莫回需要一个人搞定,并且很可能必须不显山不漏水的一个人搞定,这里面的难度就可想而知了。
想想未来的前路,莫回感觉好像是登珠峰一样,好高啊~~~
好在莫回多少算是业内人士,这些事基本算得上是本职工作,无非就是项目经理、产品经理、主程、架构一肩挑了。难是难了点,工作量大是大了点,但是好歹还算有解决办法,只要沿着道路一步步走,总会有完成的那一天。
工作量不小,不过也不是没有捷径可走,莫回点开网页,开始搜集他需要的开源软件。他去开源之家搜了一下,开源的爬虫就有有一百多个,里面估计会有合用的。
五大模块他都简单的搜了一下,大多数都还有类似的可替代软件,现在他需要做的就是在里面找到最合适的哪一款,然后修改后进行组装。
首先需要选择开发语言,各种语言都有自己的适用范围和优缺点,一旦选定了,那么五大模块都需要是同一个语言开发出来的才行,这样也方便组装和拓展开发。
莫回想了想,他最终选定了c++,因为这种语言更加靠近底层和汇编,整体执行效率和速度比较好。
莫回开始在网上寻找和筛选合用的开源软件,将那些基本符合要求的c++开发的软件全部下载下来,各自先归类存储起来。
等莫回将合用的三十多个各类爬虫全部下载下来的时候夜已经深了,莫回揉揉僵硬的脖颈,伸伸懒腰,不由得为今后的日子哀叹:要拼老命了啊,上班拼命回家也要拼命,这是要把自己当驴使唤啊~~~