我正在开发一个Web应用程序,我想执行两种统计/建模操作.
(1)从存储在我的应用程序的后端(HBase集群)的数据进行批量分析.通常,这个操作需要定期进行,比如每天晚上.数据的大小可能超过本地存储器中可以存储的大小,因此这可能需要调用一些支持并行计算的软件包.
(2)在前端由用户请求触发的飞行R执行.典型用例包括预测小时间序列.用户可以在同一时间放置请求,因此应该有一些支持并发性.性能至关重要,因为用户无法无限期地等待响应.
我的问题是:对于这两个问题,技术/ CRAN包的最佳组合是什么?
我现在的想法是:
>将Rserver与Ruby客户端结合使用.或者,我正在考虑用Java编写服务器并使用现有的R / Java绑定.
>使用RHadoop处理大数据集上的作业.
我看到RevoDeployR是一个很棒的工具,但不是开源的,不是吗?
感谢您的帮助
解决方法
我建议使用RApache(
http://rapache.net /)与R包RJSONIO或rjson