阿里云轻量应用服务器2核2G仅售：58元/年 - 第5页 - IDC信息交流 - 落伍者

gydtep 发表于 2021-11-20 09:21:01

超大规模索引构建和检索：Proxima 精于工程实现和算法底层优化，引入了复合性的检索算法，基于有限的构建成本实现了高效率的检索方法，单片索引可达几十亿的规模。

gydtep 发表于 2021-11-20 18:56:32

随着大数据的大量来源以及企业可用数据量的增加，存储容量规划已成为存储管理员的问题。据估计，每天产生2.5万亿字节的数据。现在，如果以神经元计算的话，那就是相当于2.5亿个人类大脑的海量数据。而且，相同的估计表明，全球总数据的90%是从2016年到2018年生成的。

gydtep 发表于 2021-11-22 09:03:45

对此PolarDB技术团队提出了In-Memory Column Index(IMCI）的技术方案，在复杂分析查询场景获得的数百倍的加速效果。本文阐述了IMCI背后技术路线的思考和具体方案的取舍。

gydtep 发表于 2021-11-22 16:05:11

这个架构在工程实现上依赖大量深层次的函数嵌套及虚函数调用，在处理海量数据时，这种架构会影响现代CPU流水线的pipline效率，导致CPU Cache效率低下。同时Iterator执行模型也无法充分发挥现代CPU提供的SIMD指令来做执行加速。

gydtep 发表于 2021-11-23 08:21:26

行列混合的优化器
PolarDB原生有一套面向行存的优化器组件，在引擎层增加对列存功能支持之后，此部分需要进行功能增强，优化器需要能够判断一个查询应该被调度到行存执行还是列存执行。我们通过一套白名单机制和执行代价计算框架来完成此项任务。系统保证对支持的SQL进行性加速，同时兼容运行不支持的SQL.

gydtep 发表于 2021-11-24 14:59:05

对ColumnIndex中每一列，其存储都使用了无序且追加写的格式，结合标记删除及后台异步compaction实现空间回收。其具体实现上有如下几个关键点：

列索引中记录按RowGroup进行组织，每个RowGroup中不同的列会各自打包形成DataPack。

gydtep 发表于 2021-11-25 14:47:59

数据量TPC-H 100GB, 22条Query
CPU Intel(R) Xeon(R) CPU E5-2682 2 socket
内存 512G, 启动后数据都灌进内存。

gydtep 发表于 2021-11-26 08:46:59

首先利用传统匹配算法Sift自动生成模型所需的训练数据，完成模型的冷启动；并且在模型上线后，对线上人工作业结果进行自动挖掘，并组织成训练数据，以迭代模型优化。

gydtep 发表于 2021-11-26 17:26:12

图像检索是在高德地图数据自动化生产中的一次尝试，取得了不错的效果，并且已在实际业务中使用。但是模型并不是完美的，仍会存在Corner case，为了解决这些case，我们未来将会从半监督学习/主动学习自动补充数据，以及引入Transformer优化特征提取和融合两方面进行探讨。

gydtep 发表于 2021-11-27 18:04:30

国际RISC-V基金会CEO Calista Redmond表示，“阿里巴巴通过持续的贡献、领先的技术以及与RISC-V生态圈的深入合作，已成为RISC-V社区真正的领导者。阿里巴巴此举（玄铁开源），将激发全球RISC-V社区创新芯片开发，RISC-V全球生态将从中受益。”

页: 1 2 3 4 [5] 6 7 8 9 10 11 12 13 14

落伍者's Archiver