StarSearch开发近况
May 30th, 2007 by eonhy
一、爬虫的问题:
原本的设想是利用Web-Harvest这一数据抽取工具对指定的Web页面中提取包含关键字的信息,目标锁定的是“Astronomy Picture of the Day Archive”这一类有着固定更新的资源网站,这是被动的一方;对于不确定出现的互联网内容则采用Heritrix爬虫程序去爬取,这是主动的一方。
二、Web表现形式的问题:
富客户端RIA的选择,我低估了AJAX的开发难度,GWT也不是万能的,争取在更多的开源JS库和AJAX框架中筛选,尽量减少开发工作量。
三、网络接入的问题
目前看来只能依靠自己家用ADSL的512Kbps(上行)小水管,服务器的运算能力在这种状况下已经不是瓶颈了。
四、PHP Client
原本打算是查询用的MySQL数据库放在LAMOST服务器上,通过定时器在凌晨完成异地数据库的同步。
LAMOST服务器作为前端展示平台,通过WS完成远程调用,但是流量瓶颈不可忽视,大部分的数据流量都会出现在具体内容的展示上。考虑是否在PHP端实现一个缓存机制(没把握)。
其他的,还在思考中
P.S. 最近手里有个财务分析系统的项目,时间比较紧……
- No Comments »
- Posted in Astronomy

