-
Notifications
You must be signed in to change notification settings - Fork 450
社区会议纪要
Oilbeater edited this page Jun 20, 2023
·
44 revisions
每月 1,15 号下午两点开始,遇到周末或节假日往后顺延。
腾讯会议 #835-5397-3121
- 上期工作总结
- Underlay 桥接网卡状态定期同步
- u2o 支持指定 IP
- ovn-ic 支持双栈
- kubectl ko 支持性能测试和更多连通性测试
- 本期工作安排
- 连通性和性能脚本功能增强
- libovsdb 替换
- 自定义 VPC 健康检查方式调研
- 上期工作总结
- Mount 权限和 ClusterRole 权限缩减
- 子网网关代码 Review 和重构
- 增加内存泄漏相关 E2E
- 新增 IPPool 资源进行细粒度 IP 分配控制
- 新增 NAT 策略控制
- 本期工作安排
- Underlay 桥接网卡状态定期同步
- u2o 支持指定 IP
- ovn-ic 支持双栈
- vpc-nat-gateway 支持双栈
- vpc-nat-gateway 支持多活
- kubectl ko 支持性能测试和更多连通性测试
- 上期工作总结
- 资源加锁避免并发冲突
- 性能测试方法文档
- Northd leader 切换加速
- Pod CRUD 重复进队列问题排查
- 本期工作安排
- Mount 权限和 ClusterRole 权限缩减
- 子网网关代码 Review 和重构
- 增加内存泄漏相关 E2E
- 新增 IPPool 资源进行细粒度 IP 分配控制
- 新增 NAT 策略控制
- Client-go Informer 机制和相关问题分享
- 上期工作总结
- NodeLocalDnsCache 兼容性适配完成
- ko 在 ovn-central 存在异常 Pod 时的修复
- iptables 规则增加 --random-fully
- 本期工作安排
- 资源加锁避免并发冲突
- 性能测试方法文档
- Service backend 变更 Client hang 住问题排查
- Northd leader 切换加速
- Pod CRUD 重复进队列问题排查
- 上期工作总结
- OVN IPSec 功能镜像生成和使用文档上线
- 修复一个 vswitchd 的内存泄露问题
- Helm 仓库部署成功,需要和 CI 流水线对接
- libovsdb 完成 LB 和 PortGroup 相关重构
- 本期工作安排
- 1.11 兼容性问题排查
- NodeLocalDnsCache 兼容性适配
- ko 在 ovn-central 存在异常 Pod 时的修复
- iptables 规则增加 --random-fully
- 上期工作总结
- OVN Mirror 性能测试,大约有 10% 性能开销
- OVN IPSec 调研完成
- Pod 网卡热更新,可以通过 Annotation 对网卡进行动态管理,后期会和 Kubevirt 进行整合
- Helm 仓库部署成功,需要和 CI 流水线对接
- 本期工作安排
- OVN Mirror 使用文档
- OVN IPSec 使用文档
- libovsdb 重构继续
- 设计性能测试方案衡量 libovsdb 性能提升
- E2E 偶现问题排查
- OVN IPSec 功能调研分享
- 上期工作总结
- 部分 libovsdb 重构合入
- kubectl ko 新增日志收集功能
- OVS-OVN 重启策略调整,可做到无中断升级
- Webhook 和 KubeVirt E2E 增强
- 本期工作安排
- libovsdb 重构继续
- 设计性能测试方案衡量 libovsdb 性能提升
- Webhook E2E 增加
- 偶现 E2E 问题处理
- Heml Charts 参数增加
- OVN IPSec 功能调研
- OVN Remote Mirror 功能分享
- 上期工作总结
- SecurityGroup 问题排查
- SecurityGroup API 文档完善
- kube-ovn-pinger 文档完善
- 双栈 Service 更改 ipFamily 问题修复
- Github Action 优化
- 本期工作安排
- 镜像安全问题修复
- E2E 偶发失败问题修复
- 升级时间优化
- 增加日志收集工具
- 调研 remote mirror 相关使用和实现
- 上期工作总结
- 升级中断确认是隧道重建导致,需要等上游反馈
- API 文档完成
- NetworkPolicy 相关兼容性测试问题完全修复
- 支持通过 Annotation 自定义 Pod 路由
- 本期工作安排
- kubevirt 和固定 IP 相关自动化测试
- SecurityGroup 问题排查
- SecurityGroup API 文档完善
- kube-ovn-pinger 文档完善
- 双栈 Service 更改 ipFamily 问题修复
- 上期工作总结
- 网络策略相关问题修复
- enable-lb 和 enable-ecmp 调整为 subnet 级别配置
- 清理 route 方式的 u2o 实现
- 清理 htb qos 实现
- ipam 信息对外暴露
- 本期工作安排
- 升级中断时间自动化测试
- 升级中断时间优化
- Submariner E2E 测试
- Webhook E2E 测试
- API 文档
- 上期工作总结
- OVN/OVS 新版本调研完成,大规模性和 Windows 支持有提升
- OVN-IC 相关 bug 修复
- Metrics 可按需开启
- Underlay 环境 IP 冲突检测
- Socket mark 映射测试存在问题需要继续跟进
- 网络策略相关问题定位
- 本期工作安排
- 网络策略相关问题修复
- enable-lb 和 enable-ecmp 调整为 subnet 级别配置
- 清理 route 方式的 u2o 实现
- 清理 htb qos 实现
- ipam 信息对外暴露
- 网络中断排查
- 升级 OVN 和 OVS 至新版本
- 上期工作总结
- E2E 框架迁移基本完成,还需要考虑不同分支功能不同的情况
- Underlay Overlay 互通功能完成,测试需要根据 review 调整
- 1.11 helm 部署完成,需要增加 1.9 到 1.11 的升级自动化测试
- 本期工作安排
- 调研 ovn 22.12 和 ovs 3.0 的新功能及优化
- 从 socket mark 到 vlan qos 映射 controller
- NetworkPolicy 相关 E2E bug 修复
- IC 相关 bug 修复
- Underlay Pod 创建时检测 IP 是否已被物理设备占用
- Metrics 接口可关闭
- 上期工作总结
- LeaderElection 调研完成需要重构 Kube-OVN 的选举逻辑
- Test E2E 完成大部分测试迁移,还差 Cilium 和 Service-LB 测试迁移,以及相关流水线准备
- IPAM 单元测试考虑增加 benchmark 的性能测试
- 需要调研从 socket mark 映射 vlan priority 方法
- 本期工作安排
- KubeVirt 网络性能优化
- Underlay 和 Overlay 网络互通
- 大规模 Underlay 下 APIServer CPU 占用过高问题优化
- 浪潮王玉东分享使用 sriov-network-operator 优化 mellanox offload 和 RDMA 使用实践
- 上期工作总结
- 1.10/1.9/1.8 分支发布新版本,解决 underlay 和 ovn db 的多个问题。
- 测试框架内容基本讨论清楚,还需要代码完善。
- 单元测试和 E2E 测试增加。
- 本期工作安排
- master 断电过程中出现 IP 冲突问题排查。
- 路由更新使用 replace 替换 add 方法。
- Client-go LeaderElection 调研。
- VPC Peering 相关问题排查。
- Socket 优先级映射 Vlan 优先级方法调研。
- IPAM 模块单元测试覆盖率补充。
- Underlay on Underlay ARP 无法通过问题解决。
- ko-trace 增加 ARP 方法。
- 测试框架分享
- 上期工作总结
- NetworkPolicy 的更新步骤需要再调研下 ovn-nbctl 事务的使用方法,目前存在更新遗漏的情况
- 测试框架考虑引入 k8s 的 network 相关测试
- libovsdb 工作需要继续 review,并增加 case
- 本期工作安排
- NetworkPolicy 数字开头会不生效,需要调研解决方案
- 集中式网关节点全部 not ready 的时候需要保留最后一次网关节点
- Master 分支 helm e2e
- VPC peering 双栈问题排查
- 信息同步
- 由于近期一直发现稳定性相关问题,1.11 延后发布,等 bug 收敛、测试覆盖后保证质量再发布
- 社区问题讨论
- Underlay/Overlay 单网卡混部导致网络断开问题讨论
- 使用 EIP 后的 Pod 跨子网访问出现问题讨论
- 本期工作安排
- Kubevirt 环境存在 stopped 状态 vm,重启 kube-ovn-controller 后 IP 冲突 问题排查
- 磁盘满后 ovn-central 启动异常问题排查
- statefulset中pod的preStop勾子失去网络的问题
- 自动化测试框架建立
- 上期工作总结
- QoS 在 underlay 环境可以正确配置 tc 规则,但目前不好验证优先级是否生效
- Offload 失败问题解决,需要修改之前流表优化的规则
- 确定使用 cyclonus 进行 NetworkPolicy 兼容性测试,发现一些问题需要修正
- 本期工作安排
- 动态更新 EIP 问题修复
- ovn-central 脑裂问题排查
- ovsdb-server 不断刷新连接 reset 问题排查
- subnet not ready 问题排查
- pkg/utils 单元测试覆盖
- 社区问题讨论
- Kube-OVN 功能成熟度列表
- 1.8.10,1.9.9,1.10.6 三个版本发布,修复了一系列性能和稳定性问题
- VPC 相关使用问题同步
- 本期工作安排
- QoS 工作调研继续
- Offload 失败问题排查
- NetworkPolicy E2E 测试引入
- Helm 更新和 E2E 测试
- Calico 平滑切换至 Kube-OVN
- Test 框架建立
- 1.11 文档补全
- 社区问题讨论
- vpc 内 lb 和 coredns 使用方式讨论
- 使用 tap 和 vhosteuser 进行性能优化方式讨论
- ovs-dpdk 编译存在问题需要进一步查看
- 上期工作总结
- 内存优化,解决 vswitchd, kube-ovn-controller 和 kube-ovn-cni 相关内存泄露问题
- ovn-ic configmap 可动态更新
- 1.10 支持 k8s 1.24
- 系统参数优化
- 本期工作安排
- 原生 prometheus 配置文档
- QoS 使用文档完善
- ovn-northd 内存泄露问题排查
- 集中式网关问题处理
- ovs 编译 base 使用 upstream 版本
- 使用 SNAT EIP 时访问 svc 问题调查
- OVN DB 从 apiserver 恢复调研
- 上期工作总结
- 九州云的小伙伴贡献了大量 libovsdb 和 dpdk 支持相关代码。
- VPC 相关社区问题基本解决完成。
- 内存泄露问题初步定为是内存分配器问题,需要从 jemalloc 切换为 glibc 再进行观察。
- Cilium 集成相关功能验证完成
- 本期工作安排
- ovn-ic e2e 改善
- ovn-ic configmap 可动态更新
- libovsdb 优化工作
- 系统参数优化
- 大量 subnet 创建导致网络中断问题排查
- 1.10 支持 k8s 1.24
- QoS 文档完善
- 子网初始化失败问题排查
- 社区问题讨论
- kata 使用 tap 设备进行性能优化方案讨论,需要测试 udp 和重启的稳定性
- DPDK 镜像存在问题,镜像需要重新编译
- 使用 libovsdb 工作量比较大,需要增加人手进行开发
-
v1.11-s4 工作总结
- Kubernetes 1.24 lable 和 taint 变化后支持
- 节点选择器导致非 DPDK 部署失败问题
- Cilium 集成方案安全策略功能验证
- compactdb error 日志问题修复
- htb qos 取值范围修复
- ovn-ic 在策略路由下问题修复
-
v1.11-s5 工作安排
- 社区问题修复 #1574 #1657 #1658 #1697 #1696 #1647
- ovn-ic e2e 改善
- ovn-ic configmap 可动态更新
- 社区问题讨论
- vpc-nat-gateway 路由丢失问题讨论
- VPC 内 Service 支持讨论
- VPC 内选择节点部署 Gateway 讨论
-
v1.11-s3 工作总结
- 新版本发布: 1.10.2,1.9.5,1.8.8
- 磁盘从空间满恢复后,ovn db 没有正常恢复问题修复
- kubectl ko 问题修复
- Networkpolicy 导致 CPU 异常问题修复
-
v1.11-s4 工作安排
- Service 规则在修改后丢失问题
- 1.24 lable 和 taint 变化后支持问题
- 节点选择器导致非 DPDK 部署失败问题
- Cilium 集成方案功能验证
- 社区问题讨论
- 自定义switch lb rule需求方案讨论
- 自定义coredns需求分析讨论
-
v1.11-s2 工作总结
- 浪潮同学增加了更多 BGP 选项及文档
- ovn-central 或 master 节点故障网络中断问题修复
- 启动异常指令集问题修复,新增 no-avx512 镜像
- 非对称路由打通修复验证需进一步和用户确认
- loadbalancer 类型 service 还需要文档和 e2e 测试
-
v1.11-s3 工作安排
- 磁盘从空间满恢复后,ovn db 没有正常恢复
- lr-policy 导致集群互联功能异常
- lr-pollcy 导致更换 join cidr 方案失效
- Cilium e2e 异常
- kubectl ko 问题修复
- 社区问题讨论
- 集中式网关目前支持 ecmp 可以做到流量负载均衡
- 用户 vpc 互联需求可以考虑使用 vpc-peering 功能或者通过网关进行 nat
- Kube-OVN 本身的 API 以 CRD 形式注册到 Kubernetes 中,由 Kubernetes 提供
- 本地调试可以参考开发文档利用 kind 部署本地环境调试
-
v1.11-s1 工作总结
- 使用 libovsdb 优化 ovn 访问,创建速度有 4 倍提升
- Loadbalancer 类型 Service 支持进行中
- GC 和 Inspection 间隔可设置,review 待修改
-
v1.11-s2 工作安排
- pod向外暴露后,出现connection reset by peer 错误
- 磁盘从空间满恢复后,ovn db 没有正常恢复
- vswitchd 内存不断上升
- ovn-central 断掉后,ovs-ovn 重启导致网络中断
- ovn-central 启动报指令集异常
- 社区问题讨论
- 1.10 发版,新功能介绍
- Submariner 集成问题答疑
- 多集群共享 OVN 问题讨论
- 多网卡 macvlan mac 分配存在问题讨论
-
v1.10-s8 工作总结
- Windows 支持完成
- 重启网络中断时间降低,可实现重启网络不丢包
- 1.9 部署 charts 完成
-
v1.11-s1 工作安排
- IPAM 和 GC 相关的代码梳理
- Cilium E2E 问题排查
- 使用 libovsdb 优化 ovn 访问
- Loadbalancer 类型 Service 支持
- kube-ovn-controller leader 切换时需要退出
- GC 和 Inspection 间隔可设置
- gc 时间优化
- 社区问题讨论
- kubevirt vm 重启 IP 不变的功能在指定 subnet 情况下可能会存在问题
- kubevirt 如果做热迁移,需要第一块网卡为 masquerade,第二块网卡为 bridge
- dpdk 类型的热迁移暂时没有支持
- eip 的管理由 kube-ovn 内置的子网 ipam 进行地址分配
-
v1.10-s7 工作总结
- 新增 vpc-nat-gateway eip 和 snat 分拆
- OVN 和 OVS 版本更新,优化内存占用和 QPS
- Submariner 方案集成
-
v1.10-s8 工作安排
- 使用 helm/charts 进行 Kube-OVN 的安装和升级管理
- IPAM 和 GC 相关的代码梳理
- kube-ovn-controller 随着节点规模增加 ovn-nb 访问量线性增加
- kube-ovn-cni 随着 Pod 规模增加 ovsdb 访问量线性增加
- Cilium E2E 失败问题排查
- 社区问题讨论
- Submariner vxlan 方式和 geneve 是否会冲突?不会,vxlan 用于跨集群网关的南北流量,不影响集群内的封装模式
- L2/L3 LB 的 CRD 暴露。Kube-OVN 内对 Service 的处理可以实现 L2 LB,没有特殊需求可以不暴露单独的 CRD,L3 的 LB 要绑定 chassis 存在可用性隐患,需要再考虑一下
- 由于一些大功能和稳定性相关优化,v1.10 推迟到五月初发布
-
v1.10-s6 工作总结
- 新增 contrack 查看文档,可以关联网关 nat 和的地址和 Pod 源 IP 的映射关系
- 升级测试,检验网络中断情况。跨节点访问在 ovs-ovn 重启过程中会有 1s 左右中断时间,中断敏感的用户可以考虑不升级 ovs-ovn
- Submariner vxlan 的方案存在问题,需要等待上游解决
- v1.10-s7 工作安排
- 社区常见问题回答
- 如何成为 maintainer? 主要衡量两个点 1. 是否有持续贡献 2. 是否有独立的功能贡献,近期会推出书面化的社区晋升策略
- 哪里能看到谁在使用 Kube-OVN? 我们会近期增加 adaptor 相关的规范,欢迎使用者来提交
-
v1.10-s5 工作总结
- 1.8.4 发版,解决了 ipset 导致内核 crash 问题,以及一些 ip 状态不一致的问题
- 发版周期调整,如果有 bugfix 小版本之后会 1~2 周升级
- Windows 支持目前完成构建,cni 和部分 cniserver 处理,目前存在 vswitchd 和 ovn-controller 卡住的问题,需要和 upstream 反馈
- Submariner 目前需要看 gateway engine 部分如何适配
- v1.10-s6 工作安排
-
v1.10-s4 工作总结
- OVS-DPDK 功能完成
- v1.9.1 和 v1.8.3 发版
- KubeVirt 方案文档初稿完成
- Submariner PR 提交,等待 review
- Windows 支持准备集成测试
- Yealink 问题讨论
- 将 eip/snat/dnat/fip 和 vpc-nat-gw 拆分,支持更灵活的配置,代码已完成,后续提交 pr
- 解释 VPC/Subnet 等资源目前是集群资源不是命名空间资源的历史原因,以及改造面临的问题
- VM 内运行 underlay 网络会出现问题,当前已解决,后续会提交 pr
- VPC 和 Subnet 同名网络会出现问题,需要后续继续排查
- v1.10-s5 工作安排
- v1.10-s3 工作总结
- Windows CNI 完成了 ovn0 的初始化,还需要大概两周进行其他CNI操作和部署脚本准备
- 主流 CNI 性能基线测试完成,结果整理后稍后发布
- 芯启源智能网卡 ovs offload 能力验证完成,可以实现和 Kube-OVN 的对接,一些文档需要相应调整
- Submarine 方案调研,需要新增对 Kube-OVN 的适配,SVC/Pod CIDR 的发现,以及每台宿主机网口选择相关工作需要在 Submarine 进行处理
- DHCP 支持,kubevirt 使用 SRIOV 或者 DPDK 类型网卡时可以通过 Kub-OVN 来提供相应的 DHCP 服务
- v1.10-s4 工作安排
- v1.10-s2 工作总结
- ECMP 问题修复,修改了上游路由的路由选择 hash 算法,避免同一连接被 hash 到不同路径
- 使用 router policy 替代了原有的源地址策略路由,可以降低路由条目,并且不依赖我们自己对 ovn 的 patch
- 脚本方式一键编译性能优化内核模块完成
- 增加了对 db storage status 监控
- Windows 适配和主流 CNI 性能基线测试由于春节和近期故障处理延期
- v1.10-s3 工作安排
-
v1.10-s1 工作总结
- Windows 环境手动部署 OVN/OVS 已经可以跑通,目前面临驱动需要签名问题,自动化部署可能还比较困难,还需要了解 Windows 下虚拟网络的机制
- 内核编译优化目前 fastpath 模块的自动化编译和分发已经完成,下一步需要开展对 ovs 编译优化的工作
- Namespace 绑定多子网工作完成,已合并到 master
-
多集群互联方案讨论
- 用户自定义 VPC 是否可以通过新的 CRD 来控制跨集群互联
- 是否可以将 OVN 独立部署,多个集群共享一个 SDN 控制器
-
v1.9-s6 工作总结
- CPU/Memory Profile 工作进展介绍,ovn-northd 内 IPAM 相关操作占据了不少 CPU,Kube-OVN 内没有使用 ovn 内置的 IPAM,相关功能可以考虑裁剪节省 CPU,对应哦工作可以提交给上游
-
日本的云原生发展现状以及社区情况 from 成臣@PingCAP
-
简要介绍社区会议安排
- 每月1,16号召开,遇到节假日顺延到下个工作日
- 工作安排,进度跟踪
- 听取社区意见,回答相关问题
- 不定期邀请嘉宾进行分享,也欢迎社区小伙伴主动报名