Skip to content

社区会议纪要

Oilbeater edited this page Jun 20, 2023 · 44 revisions

Kube-OVN 社区会议日程纪要

每月 1,15 号下午两点开始,遇到周末或节假日往后顺延。

腾讯会议 #835-5397-3121

2023.6.19

  • 上期工作总结
    • Underlay 桥接网卡状态定期同步
    • u2o 支持指定 IP
    • ovn-ic 支持双栈
    • kubectl ko 支持性能测试和更多连通性测试
  • 本期工作安排
    • 连通性和性能脚本功能增强
    • libovsdb 替换
    • 自定义 VPC 健康检查方式调研

2023.6.01 (13:00)

  • 上期工作总结
    • Mount 权限和 ClusterRole 权限缩减
    • 子网网关代码 Review 和重构
    • 增加内存泄漏相关 E2E
    • 新增 IPPool 资源进行细粒度 IP 分配控制
    • 新增 NAT 策略控制
  • 本期工作安排
    • Underlay 桥接网卡状态定期同步
    • u2o 支持指定 IP
    • ovn-ic 支持双栈
    • vpc-nat-gateway 支持双栈
    • vpc-nat-gateway 支持多活
    • kubectl ko 支持性能测试和更多连通性测试

2023.5.16 (13:00)

  • 上期工作总结
    • 资源加锁避免并发冲突
    • 性能测试方法文档
    • Northd leader 切换加速
    • Pod CRUD 重复进队列问题排查
  • 本期工作安排
    • Mount 权限和 ClusterRole 权限缩减
    • 子网网关代码 Review 和重构
    • 增加内存泄漏相关 E2E
    • 新增 IPPool 资源进行细粒度 IP 分配控制
    • 新增 NAT 策略控制
  • Client-go Informer 机制和相关问题分享

2023.5.4 (13:00)

  • 上期工作总结
    • NodeLocalDnsCache 兼容性适配完成
    • ko 在 ovn-central 存在异常 Pod 时的修复
    • iptables 规则增加 --random-fully
  • 本期工作安排
    • 资源加锁避免并发冲突
    • 性能测试方法文档
    • Service backend 变更 Client hang 住问题排查
    • Northd leader 切换加速
    • Pod CRUD 重复进队列问题排查

2023.4.18

  • 上期工作总结
    • OVN IPSec 功能镜像生成和使用文档上线
    • 修复一个 vswitchd 的内存泄露问题
    • Helm 仓库部署成功,需要和 CI 流水线对接
    • libovsdb 完成 LB 和 PortGroup 相关重构
  • 本期工作安排
    • 1.11 兼容性问题排查
    • NodeLocalDnsCache 兼容性适配
    • ko 在 ovn-central 存在异常 Pod 时的修复
    • iptables 规则增加 --random-fully

2023.4.3

  • 上期工作总结
    • OVN Mirror 性能测试,大约有 10% 性能开销
    • OVN IPSec 调研完成
    • Pod 网卡热更新,可以通过 Annotation 对网卡进行动态管理,后期会和 Kubevirt 进行整合
    • Helm 仓库部署成功,需要和 CI 流水线对接
  • 本期工作安排
    • OVN Mirror 使用文档
    • OVN IPSec 使用文档
    • libovsdb 重构继续
    • 设计性能测试方案衡量 libovsdb 性能提升
    • E2E 偶现问题排查
  • OVN IPSec 功能调研分享

2023.3.16

  • 上期工作总结
    • 部分 libovsdb 重构合入
    • kubectl ko 新增日志收集功能
    • OVS-OVN 重启策略调整,可做到无中断升级
    • Webhook 和 KubeVirt E2E 增强
  • 本期工作安排
    • libovsdb 重构继续
    • 设计性能测试方案衡量 libovsdb 性能提升
    • Webhook E2E 增加
    • 偶现 E2E 问题处理
    • Heml Charts 参数增加
    • OVN IPSec 功能调研
  • OVN Remote Mirror 功能分享

2023.3.1

  • 上期工作总结
    • SecurityGroup 问题排查
    • SecurityGroup API 文档完善
    • kube-ovn-pinger 文档完善
    • 双栈 Service 更改 ipFamily 问题修复
    • Github Action 优化
  • 本期工作安排
    • 镜像安全问题修复
    • E2E 偶发失败问题修复
    • 升级时间优化
    • 增加日志收集工具
    • 调研 remote mirror 相关使用和实现

2023.2.16

  • 上期工作总结
    • 升级中断确认是隧道重建导致,需要等上游反馈
    • API 文档完成
    • NetworkPolicy 相关兼容性测试问题完全修复
    • 支持通过 Annotation 自定义 Pod 路由
  • 本期工作安排
    • kubevirt 和固定 IP 相关自动化测试
    • SecurityGroup 问题排查
    • SecurityGroup API 文档完善
    • kube-ovn-pinger 文档完善
    • 双栈 Service 更改 ipFamily 问题修复

2023.2.6

  • 上期工作总结
    • 网络策略相关问题修复
    • enable-lb 和 enable-ecmp 调整为 subnet 级别配置
    • 清理 route 方式的 u2o 实现
    • 清理 htb qos 实现
    • ipam 信息对外暴露
  • 本期工作安排
    • 升级中断时间自动化测试
    • 升级中断时间优化
    • Submariner E2E 测试
    • Webhook E2E 测试
    • API 文档

2023.1.16

  • 上期工作总结
    • OVN/OVS 新版本调研完成,大规模性和 Windows 支持有提升
    • OVN-IC 相关 bug 修复
    • Metrics 可按需开启
    • Underlay 环境 IP 冲突检测
    • Socket mark 映射测试存在问题需要继续跟进
    • 网络策略相关问题定位
  • 本期工作安排
    • 网络策略相关问题修复
    • enable-lb 和 enable-ecmp 调整为 subnet 级别配置
    • 清理 route 方式的 u2o 实现
    • 清理 htb qos 实现
    • ipam 信息对外暴露
    • 网络中断排查
    • 升级 OVN 和 OVS 至新版本

2023.1.3

  • 上期工作总结
    • E2E 框架迁移基本完成,还需要考虑不同分支功能不同的情况
    • Underlay Overlay 互通功能完成,测试需要根据 review 调整
    • 1.11 helm 部署完成,需要增加 1.9 到 1.11 的升级自动化测试
  • 本期工作安排
    • 调研 ovn 22.12 和 ovs 3.0 的新功能及优化
    • 从 socket mark 到 vlan qos 映射 controller
    • NetworkPolicy 相关 E2E bug 修复
    • IC 相关 bug 修复
    • Underlay Pod 创建时检测 IP 是否已被物理设备占用
    • Metrics 接口可关闭

2022.12.1

  • 上期工作总结
    • LeaderElection 调研完成需要重构 Kube-OVN 的选举逻辑
    • Test E2E 完成大部分测试迁移,还差 Cilium 和 Service-LB 测试迁移,以及相关流水线准备
    • IPAM 单元测试考虑增加 benchmark 的性能测试
    • 需要调研从 socket mark 映射 vlan priority 方法
  • 本期工作安排
    • KubeVirt 网络性能优化
    • Underlay 和 Overlay 网络互通
    • 大规模 Underlay 下 APIServer CPU 占用过高问题优化
  • 浪潮王玉东分享使用 sriov-network-operator 优化 mellanox offload 和 RDMA 使用实践

2022.11.16

  • 上期工作总结
    • 1.10/1.9/1.8 分支发布新版本,解决 underlay 和 ovn db 的多个问题。
    • 测试框架内容基本讨论清楚,还需要代码完善。
    • 单元测试和 E2E 测试增加。
  • 本期工作安排
    • master 断电过程中出现 IP 冲突问题排查。
    • 路由更新使用 replace 替换 add 方法。
    • Client-go LeaderElection 调研。
    • VPC Peering 相关问题排查。
    • Socket 优先级映射 Vlan 优先级方法调研。
    • IPAM 模块单元测试覆盖率补充。
    • Underlay on Underlay ARP 无法通过问题解决。
    • ko-trace 增加 ARP 方法。
  • 测试框架分享

2022.11.1

  • 上期工作总结
    • NetworkPolicy 的更新步骤需要再调研下 ovn-nbctl 事务的使用方法,目前存在更新遗漏的情况
    • 测试框架考虑引入 k8s 的 network 相关测试
    • libovsdb 工作需要继续 review,并增加 case
  • 本期工作安排
    • NetworkPolicy 数字开头会不生效,需要调研解决方案
    • 集中式网关节点全部 not ready 的时候需要保留最后一次网关节点
    • Master 分支 helm e2e
    • VPC peering 双栈问题排查

2022.10.17

  • 信息同步
    • 由于近期一直发现稳定性相关问题,1.11 延后发布,等 bug 收敛、测试覆盖后保证质量再发布
  • 社区问题讨论
    • Underlay/Overlay 单网卡混部导致网络断开问题讨论
    • 使用 EIP 后的 Pod 跨子网访问出现问题讨论
  • 本期工作安排
    • Kubevirt 环境存在 stopped 状态 vm,重启 kube-ovn-controller 后 IP 冲突 问题排查
    • 磁盘满后 ovn-central 启动异常问题排查
    • statefulset中pod的preStop勾子失去网络的问题
    • 自动化测试框架建立

2022.09.16

  • 上期工作总结
    • QoS 在 underlay 环境可以正确配置 tc 规则,但目前不好验证优先级是否生效
    • Offload 失败问题解决,需要修改之前流表优化的规则
    • 确定使用 cyclonus 进行 NetworkPolicy 兼容性测试,发现一些问题需要修正
  • 本期工作安排
    • 动态更新 EIP 问题修复
    • ovn-central 脑裂问题排查
    • ovsdb-server 不断刷新连接 reset 问题排查
    • subnet not ready 问题排查
    • pkg/utils 单元测试覆盖

2022.09.02

  • 社区问题讨论
    • Kube-OVN 功能成熟度列表
    • 1.8.10,1.9.9,1.10.6 三个版本发布,修复了一系列性能和稳定性问题
    • VPC 相关使用问题同步
  • 本期工作安排
    • QoS 工作调研继续
    • Offload 失败问题排查
    • NetworkPolicy E2E 测试引入
    • Helm 更新和 E2E 测试
    • Calico 平滑切换至 Kube-OVN
    • Test 框架建立
    • 1.11 文档补全

2022.08.16

  • 社区问题讨论
    • vpc 内 lb 和 coredns 使用方式讨论
    • 使用 tap 和 vhosteuser 进行性能优化方式讨论
    • ovs-dpdk 编译存在问题需要进一步查看
  • 上期工作总结
    • 内存优化,解决 vswitchd, kube-ovn-controller 和 kube-ovn-cni 相关内存泄露问题
    • ovn-ic configmap 可动态更新
    • 1.10 支持 k8s 1.24
    • 系统参数优化
  • 本期工作安排
    • 原生 prometheus 配置文档
    • QoS 使用文档完善
    • ovn-northd 内存泄露问题排查
    • 集中式网关问题处理
    • ovs 编译 base 使用 upstream 版本
    • 使用 SNAT EIP 时访问 svc 问题调查
    • OVN DB 从 apiserver 恢复调研

2022.08.01

  • 上期工作总结
    • 九州云的小伙伴贡献了大量 libovsdb 和 dpdk 支持相关代码。
    • VPC 相关社区问题基本解决完成。
    • 内存泄露问题初步定为是内存分配器问题,需要从 jemalloc 切换为 glibc 再进行观察。
    • Cilium 集成相关功能验证完成
  • 本期工作安排
    • ovn-ic e2e 改善
    • ovn-ic configmap 可动态更新
    • libovsdb 优化工作
    • 系统参数优化
    • 大量 subnet 创建导致网络中断问题排查
    • 1.10 支持 k8s 1.24
    • QoS 文档完善
    • 子网初始化失败问题排查

2022.07.18

  • 社区问题讨论
    • kata 使用 tap 设备进行性能优化方案讨论,需要测试 udp 和重启的稳定性
    • DPDK 镜像存在问题,镜像需要重新编译
    • 使用 libovsdb 工作量比较大,需要增加人手进行开发
  • v1.11-s4 工作总结
    • Kubernetes 1.24 lable 和 taint 变化后支持
    • 节点选择器导致非 DPDK 部署失败问题
    • Cilium 集成方案安全策略功能验证
    • compactdb error 日志问题修复
    • htb qos 取值范围修复
    • ovn-ic 在策略路由下问题修复
  • v1.11-s5 工作安排
    • 社区问题修复 #1574 #1657 #1658 #1697 #1696 #1647
    • ovn-ic e2e 改善
    • ovn-ic configmap 可动态更新

2022.07.01

  • 社区问题讨论
    • vpc-nat-gateway 路由丢失问题讨论
    • VPC 内 Service 支持讨论
    • VPC 内选择节点部署 Gateway 讨论
  • v1.11-s3 工作总结
    • 新版本发布: 1.10.2,1.9.5,1.8.8
    • 磁盘从空间满恢复后,ovn db 没有正常恢复问题修复
    • kubectl ko 问题修复
    • Networkpolicy 导致 CPU 异常问题修复
  • v1.11-s4 工作安排
    • Service 规则在修改后丢失问题
    • 1.24 lable 和 taint 变化后支持问题
    • 节点选择器导致非 DPDK 部署失败问题
    • Cilium 集成方案功能验证

2022.06.16

  • 社区问题讨论
    • 自定义switch lb rule需求方案讨论
    • 自定义coredns需求分析讨论
  • v1.11-s2 工作总结
    • 浪潮同学增加了更多 BGP 选项及文档
    • ovn-central 或 master 节点故障网络中断问题修复
    • 启动异常指令集问题修复,新增 no-avx512 镜像
    • 非对称路由打通修复验证需进一步和用户确认
    • loadbalancer 类型 service 还需要文档和 e2e 测试
  • v1.11-s3 工作安排
    • 磁盘从空间满恢复后,ovn db 没有正常恢复
    • lr-policy 导致集群互联功能异常
    • lr-pollcy 导致更换 join cidr 方案失效
    • Cilium e2e 异常
    • kubectl ko 问题修复

2022.06.01

  • 社区问题讨论
    • 集中式网关目前支持 ecmp 可以做到流量负载均衡
    • 用户 vpc 互联需求可以考虑使用 vpc-peering 功能或者通过网关进行 nat
    • Kube-OVN 本身的 API 以 CRD 形式注册到 Kubernetes 中,由 Kubernetes 提供
    • 本地调试可以参考开发文档利用 kind 部署本地环境调试
  • v1.11-s1 工作总结
    • 使用 libovsdb 优化 ovn 访问,创建速度有 4 倍提升
    • Loadbalancer 类型 Service 支持进行中
    • GC 和 Inspection 间隔可设置,review 待修改
  • v1.11-s2 工作安排
    • pod向外暴露后,出现connection reset by peer 错误
    • 磁盘从空间满恢复后,ovn db 没有正常恢复
    • vswitchd 内存不断上升
    • ovn-central 断掉后,ovs-ovn 重启导致网络中断
    • ovn-central 启动报指令集异常

2022.05.16

  • 社区问题讨论
    • 1.10 发版,新功能介绍
    • Submariner 集成问题答疑
    • 多集群共享 OVN 问题讨论
    • 多网卡 macvlan mac 分配存在问题讨论
  • v1.10-s8 工作总结
    • Windows 支持完成
    • 重启网络中断时间降低,可实现重启网络不丢包
    • 1.9 部署 charts 完成
  • v1.11-s1 工作安排
    • IPAM 和 GC 相关的代码梳理
    • Cilium E2E 问题排查
    • 使用 libovsdb 优化 ovn 访问
    • Loadbalancer 类型 Service 支持
    • kube-ovn-controller leader 切换时需要退出
    • GC 和 Inspection 间隔可设置
    • gc 时间优化

2022.05.05

  • 社区问题讨论
    • kubevirt vm 重启 IP 不变的功能在指定 subnet 情况下可能会存在问题
    • kubevirt 如果做热迁移,需要第一块网卡为 masquerade,第二块网卡为 bridge
    • dpdk 类型的热迁移暂时没有支持
    • eip 的管理由 kube-ovn 内置的子网 ipam 进行地址分配
  • v1.10-s7 工作总结
    • 新增 vpc-nat-gateway eip 和 snat 分拆
    • OVN 和 OVS 版本更新,优化内存占用和 QPS
    • Submariner 方案集成
  • v1.10-s8 工作安排
    • 使用 helm/charts 进行 Kube-OVN 的安装和升级管理
    • IPAM 和 GC 相关的代码梳理
    • kube-ovn-controller 随着节点规模增加 ovn-nb 访问量线性增加
    • kube-ovn-cni 随着 Pod 规模增加 ovsdb 访问量线性增加
    • Cilium E2E 失败问题排查

2022.04.18

  • 社区问题讨论
    • Submariner vxlan 方式和 geneve 是否会冲突?不会,vxlan 用于跨集群网关的南北流量,不影响集群内的封装模式
    • L2/L3 LB 的 CRD 暴露。Kube-OVN 内对 Service 的处理可以实现 L2 LB,没有特殊需求可以不暴露单独的 CRD,L3 的 LB 要绑定 chassis 存在可用性隐患,需要再考虑一下
    • 由于一些大功能和稳定性相关优化,v1.10 推迟到五月初发布
  • v1.10-s6 工作总结
    • 新增 contrack 查看文档,可以关联网关 nat 和的地址和 Pod 源 IP 的映射关系
    • 升级测试,检验网络中断情况。跨节点访问在 ovs-ovn 重启过程中会有 1s 左右中断时间,中断敏感的用户可以考虑不升级 ovs-ovn
    • Submariner vxlan 的方案存在问题,需要等待上游解决
  • v1.10-s7 工作安排
    • vpc-nat-gateway eip 和 snat 分拆#1347
    • snat 和 eip 功能可关闭 #1433
    • 环境错误配置检查 #1453
    • QoS E2E #1451
    • Ubuntu 性能优化方案 #1427
    • Networkpolicy 名字过长导致的 ovn bug #1455

2022.04.01

  • 社区常见问题回答
    • 如何成为 maintainer? 主要衡量两个点 1. 是否有持续贡献 2. 是否有独立的功能贡献,近期会推出书面化的社区晋升策略
    • 哪里能看到谁在使用 Kube-OVN? 我们会近期增加 adaptor 相关的规范,欢迎使用者来提交
  • v1.10-s5 工作总结
    • 1.8.4 发版,解决了 ipset 导致内核 crash 问题,以及一些 ip 状态不一致的问题
    • 发版周期调整,如果有 bugfix 小版本之后会 1~2 周升级
    • Windows 支持目前完成构建,cni 和部分 cniserver 处理,目前存在 vswitchd 和 ovn-controller 卡住的问题,需要和 upstream 反馈
    • Submariner 目前需要看 gateway engine 部分如何适配
  • v1.10-s6 工作安排
    • kubevirt使用kube-ovn固定虚机IP和热迁移相关问题 #1376
    • fastpath 和 ovs kernel module 仓库 #1421
    • 升级期间网络中断问题调查 #1420
    • ipam 性能优化 #1418
    • pod 显示 route not ready 问题调查 #1405

2022.03.16

  • v1.10-s4 工作总结
    • OVS-DPDK 功能完成
    • v1.9.1 和 v1.8.3 发版
    • KubeVirt 方案文档初稿完成
    • Submariner PR 提交,等待 review
    • Windows 支持准备集成测试
  • Yealink 问题讨论
    • 将 eip/snat/dnat/fip 和 vpc-nat-gw 拆分,支持更灵活的配置,代码已完成,后续提交 pr
    • 解释 VPC/Subnet 等资源目前是集群资源不是命名空间资源的历史原因,以及改造面临的问题
    • VM 内运行 underlay 网络会出现问题,当前已解决,后续会提交 pr
    • VPC 和 Subnet 同名网络会出现问题,需要后续继续排查
  • v1.10-s5 工作安排
    • Windows CNI 支持代码改造#1223
    • Submarine 方案集成#1291
    • 文档转移到 readthedocs.org 进行托管#1349
    • 子网内完整 ACL 支持#1383
    • 网关 NAT 跟踪#1358

2022.03.01

  • v1.10-s3 工作总结
    • Windows CNI 完成了 ovn0 的初始化,还需要大概两周进行其他CNI操作和部署脚本准备
    • 主流 CNI 性能基线测试完成,结果整理后稍后发布
    • 芯启源智能网卡 ovs offload 能力验证完成,可以实现和 Kube-OVN 的对接,一些文档需要相应调整
    • Submarine 方案调研,需要新增对 Kube-OVN 的适配,SVC/Pod CIDR 的发现,以及每台宿主机网口选择相关工作需要在 Submarine 进行处理
    • DHCP 支持,kubevirt 使用 SRIOV 或者 DPDK 类型网卡时可以通过 Kub-OVN 来提供相应的 DHCP 服务
  • v1.10-s4 工作安排
    • DPDK 支持#1317
    • 1.9.1 和 1.8.3 发版工作#1317
    • Windows CNI 支持代码改造#1223
    • Submarine 方案集成#1291
    • 自动修复处于 inconsistent data 状态的数据库#1299
    • SNAT 在 pod 启动时偶发性失效#732
    • 和 Kubevirt 集成方案汇总#1348
    • 文档转移到 readthedocs.org 进行托管#1349

2022.02.16

  • v1.10-s2 工作总结
    • ECMP 问题修复,修改了上游路由的路由选择 hash 算法,避免同一连接被 hash 到不同路径
    • 使用 router policy 替代了原有的源地址策略路由,可以降低路由条目,并且不依赖我们自己对 ovn 的 patch
    • 脚本方式一键编译性能优化内核模块完成
    • 增加了对 db storage status 监控
    • Windows 适配和主流 CNI 性能基线测试由于春节和近期故障处理延期
  • v1.10-s3 工作安排
    • Windows CNI 支持代码改造#1223
    • 主流 CNI 性能基线测试#1260
    • VM 复用 StatefulSet 的 IP 分配逻辑实现生命周期 IP 固定#1297
    • 芯启源智能网卡 ovs offload 能力验证#1301
    • Submarine 方案集成#1291
    • 自动修复处于 inconsistent data 状态的数据库#1299

2022.01.17

  • v1.10-s1 工作总结

    • Windows 环境手动部署 OVN/OVS 已经可以跑通,目前面临驱动需要签名问题,自动化部署可能还比较困难,还需要了解 Windows 下虚拟网络的机制
    • 内核编译优化目前 fastpath 模块的自动化编译和分发已经完成,下一步需要开展对 ovs 编译优化的工作
    • Namespace 绑定多子网工作完成,已合并到 master
  • v1.10-s2 工作安排

    • Windows 支持调研#1223
    • 内核模块编译用户体验优化#1222
    • OVN DB 监控增强#1259
    • ECMP 同一 session hash 到不同节点问题排查1258
    • 使用策略路由优化当前源地址路由实现1256
    • 主流 CNI 性能基线测试1260
  • 多集群互联方案讨论

    • 用户自定义 VPC 是否可以通过新的 CRD 来控制跨集群互联
    • 是否可以将 OVN 独立部署,多个集群共享一个 SDN 控制器
  • 新手任务更新 https://github.com/kubeovn/kube-ovn/issues?q=is%3Aissue+is%3Aopen+label%3A%22good+first+issue%22

2022.01.04

2021.12.16

Clone this wiki locally