78

MySQL,Hadoop闭源了咋办?

突然滴,MySQL、Hadoop等开源软件有可能被“闭源”的话题火起来了。听说,活跃在我国境内众多著名商用数据库数据仓库都是从这些开源代码改出来的,这要是被鬼子釜底抽薪,那可如何是好?一时间大家都纷纷表示很揪心,心痛得无法呼吸。表担心,有我润乾软件在!润乾,一家国内的基础软件厂商,一个普普通通的软件…

74
103

差异数据的对比和整理

在我们日常的工作中,常常会遇到很多结构相同,但来源不同的数据。有时,这些数据之间完全独立,互不重叠,例如各个分公司从自己系统中导出的销售数据;但有时,这些数据之间又会有大量的重叠,例如常见的一个完整业务流程中涉及的各个系统、各个环节,都可能根据各自收到的单据进行录入。这时,如何对这些重叠数据进行对比…

138

【数据蒋堂】第39期:数据分段讨论

现代计算机一般都有多CPU核,而日益广泛应用的固态硬盘也有较强的并发能力,这些硬件资源都为并行计算提供了有力的保证。不过,要实现并行计算还需要有较好的数据分段技术,也就是能方便地把待计算的数据拆分成若干部分,让每个线程(或进程,这里以多线程为例讨论,多进程情况是类似的)分别处理。 设计数据分段方案时…

105

【数据蒋堂】第40期:倍增分段技术

区块分段方案能够满足我们设定的4个目标。不过,除了处理区块标记的麻烦外,这个办法对于列存也不是非常适合。数据按列分别存储后,分段时必须保证各列同步,即各列的分段点对应的是同一条记录的列,否则就会出错数据错位。而各个列的宽度是不同的,同样大小的区块在存储不同列的值时,能装下的个数是不同的,继续按区块分…

99

趣味集算:两行搞定GREP搜索

What?两行代码搞定GREP搜索?如果不是经常使用Linux,估计你看到这个标题后会一脸不屑加满脸狐疑:GREP搜索是个什么鬼?又一个搜索引擎问世?比百度牛x吗?楼主你过来讲讲,你是如何只用两行代码就搞定搜索的。我给你一个关键字,你能还我一堆URL?误会误会,你就是给我十个关键字,我也还不了一个U…