gydtep 发表于 2021-11-20 09:21:01

超大规模索引构建和检索:Proxima 精于工程实现和算法底层优化,引入了复合性的检索算法,基于有限的构建成本实现了高效率的检索方法,单片索引可达几十亿的规模。

gydtep 发表于 2021-11-20 18:56:32

随着大数据的大量来源以及企业可用数据量的增加,存储容量规划已成为存储管理员的问题。据估计,每天产生2.5万亿字节的数据。现在,如果以神经元计算的话,那就是相当于2.5亿个人类大脑的海量数据。而且,相同的估计表明,全球总数据的90%是从2016年到2018年生成的。

gydtep 发表于 2021-11-22 09:03:45

对此PolarDB技术团队提出了In-Memory Column Index(IMCI)的技术方案,在复杂分析查询场景获得的数百倍的加速效果。本文阐述了IMCI背后技术路线的思考和具体方案的取舍。

gydtep 发表于 2021-11-22 16:05:11

这个架构在工程实现上依赖大量深层次的函数嵌套及虚函数调用,在处理海量数据时,这种架构会影响现代CPU流水线的pipline效率,导致CPU Cache效率低下。同时Iterator执行模型也无法充分发挥现代CPU提供的SIMD指令来做执行加速。

gydtep 发表于 2021-11-23 08:21:26

行列混合的优化器
PolarDB原生有一套面向行存的优化器组件,在引擎层增加对列存功能支持之后,此部分需要进行功能增强,优化器需要能够判断一个查询应该被调度到行存执行还是列存执行。我们通过一套白名单机制和执行代价计算框架来完成此项任务。系统保证对支持的SQL进行性加速,同时兼容运行不支持的SQL.

gydtep 发表于 2021-11-24 14:59:05

对ColumnIndex中每一列,其存储都使用了无序且追加写的格式,结合标记删除及后台异步compaction实现空间回收。其具体实现上有如下几个关键点:

列索引中记录按RowGroup进行组织,每个RowGroup中不同的列会各自打包形成DataPack。

gydtep 发表于 2021-11-25 14:47:59

数据量TPC-H 100GB, 22条Query
CPU Intel(R) Xeon(R) CPU E5-2682 2 socket
内存 512G, 启动后数据都灌进内存。

gydtep 发表于 2021-11-26 08:46:59

首先利用传统匹配算法Sift自动生成模型所需的训练数据,完成模型的冷启动;并且在模型上线后,对线上人工作业结果进行自动挖掘,并组织成训练数据,以迭代模型优化。

gydtep 发表于 2021-11-26 17:26:12

图像检索是在高德地图数据自动化生产中的一次尝试,取得了不错的效果,并且已在实际业务中使用。但是模型并不是完美的,仍会存在Corner case,为了解决这些case,我们未来将会从半监督学习/主动学习自动补充数据,以及引入Transformer优化特征提取和融合两方面进行探讨。

gydtep 发表于 2021-11-27 18:04:30

国际RISC-V基金会CEO Calista Redmond表示,“阿里巴巴通过持续的贡献、领先的技术以及与RISC-V生态圈的深入合作,已成为RISC-V社区真正的领导者。阿里巴巴此举(玄铁开源),将激发全球RISC-V社区创新芯片开发,RISC-V全球生态将从中受益。”
页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14
查看完整版本: 阿里云轻量应用服务器2核2G仅售:58元/年