Elasticsearch集群异常状态(RED、YELLOW)原因分析 - 腾讯云开发者社区-腾讯云


本站和网页 https://cloud.tencent.com/developer/article/1803943 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

Elasticsearch集群异常状态(RED、YELLOW)原因分析 - 腾讯云开发者社区-腾讯云腾讯云备案控制台开发者社区学习实践活动专区工具TVP文章/答案/技术大牛搜索搜索关闭写文章提问登录/注册岳涛腾讯 · 大数据SRE工程师 (已认证)《技思广益 · 腾讯技术人原创集》签约作者50 篇文章Elasticsearch集群异常状态(RED、YELLOW)原因分析转到我的清单专栏首页大数据生态Elasticsearch集群异常状态(RED、YELLOW)原因分析1916分享分享文章到朋友圈分享文章到 QQ分享文章到微博复制文章链接到剪贴板海报分享海报分享原创Elasticsearch集群异常状态(RED、YELLOW)原因分析修改于2022-04-26 16:22:56阅读 5.3K0本文被 2 个清单收录,推荐清单Elasticsearch说明本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。集群状态为什么会异常?想知道这个,我们首先需要了解一下集群的几种状态。Elasticsearch 集群健康状态分为三种:GREENYELLOWREDGREEN是最健康的状态,说明所有的分片包括副本都可用。这种情况Elasticsearch集群所有的主分片和副本分片都已分配,Elasticsearch集群是100%可用的。那么,集群状态在什么情况下发生RED和YELLOW呢?YELLOW:主分片可用,但是副本分片不可用。这种情况Elasticsearch集群所有的主分片已经分配了,但至少还有一个副本是未分配的。不会有数据丢失,所以搜索结果依然是完整的。不过,集群高可用性在某种程度上会被弱化。可以把yellow想象成一个需要关注的warnning,该情况不影响索引读写,一般会自动恢复。RED:存在不可用的主分片。此时执行查询虽然部分数据仍然可以查到,但实际上已经影响到索引读写,需要重点关注。这种情况Elasticsearch集群至少一个主分片(以及它的全部副本)都在缺失中。这意味着索引已缺少数据,搜索只能返回部分数据,而分配到这个分片上的请求都返回异常。 查看集群状态使用kibana开发工具,查看集群状态:GET /_cluster/health复制这里可以看到,当前集群状态为red,有9个未分配的分片ES健康接口返回内容官方解释指标含义cluster_name集群的名称status集群的运行状况,基于其主要和副本分片的状态。状态为:– green所有分片均已分配。– yellow所有主分片均已分配,但未分配一个或多个副本分片。如果群集中的某个节点发生故障,则在修复该节点之前,某些数据可能不可用。– red未分配一个或多个主分片,因此某些数据不可用。在集群启动期间,这可能会短暂发生,因为已分配了主要分片。timed_out如果false响应在timeout参数指定的时间段内返回(30s默认情况下)number_of_nodes集群中的节点数number_of_data_nodes作为专用数据节点的节点数active_primary_shards活动主分区的数量active_shards活动主分区和副本分区的总数relocating_shards正在重定位的分片的数量initializing_shards正在初始化的分片数unassigned_shards未分配的分片数delayed_unassigned_shards其分配因超时设置而延迟的分片数number_of_pending_tasks尚未执行的集群级别更改的数量number_of_in_flight_fetch未完成的访存数量task_max_waiting_in_queue_millis自最早的初始化任务等待执行以来的时间(以毫秒为单位)active_shards_percent_as_number群集中活动碎片的比率,以百分比表示问题分析当集群状态异常时,需要重点关注unassigned_shards没有正常分配的分片,这里举例说明其中一种场景。找到异常索引查看索引情况,并根据返回找到状态异常的索引GET /_cat/indices复制查看详细的异常信息GET /_cluster/allocation/explain复制这里通过异常信息可以看出:主分片当前处于未分配状态(current_state),发生这个问题的原因是因为分配了该分片的节点已从集群中离开(unassigned_info.reason);发生了上诉问题之后,分片无法自动分配分片的原因是集群中没有该分片的可用副本( can_allocate );同时也给出了更详细的信息(allocate_explanation)这种情况发生的原因是因为集群有节点下线,导致主分片已没有任何可用的分片数据,当前唯一能做的事就是等待节点恢复并重新加入集群。注:某些极端场景,比如单副本集群的分片发生了损坏,或是文件系统故障导致该节点被永久移除,而此时只能接受数据丢失的事实,并通过reroute commends来重新分配空的主分片。分片未分配(unassigned_info.reason)的所有可能reason原因INDEX_CREATED索引创建,由于API创建索引而未分配的CLUSTER_RECOVERED集群恢复,由于整个集群恢复而未分配INDEX_REOPENED索引重新打开DANGLING_INDEX_IMPORTED导入危险的索引NEW_INDEX_RESTORED重新恢复一个新索引EXISTING_INDEX_RESTORED重新恢复一个已关闭的索引REPLICA_ADDED添加副本ALLOCATION_FAILED分配分片失败NODE_LEFT集群中节点丢失REROUTE_CANCELLEDreroute命令取消REINITIALIZED重新初始化REALLOCATED_REPLICA重新分配副本可以通过上诉分析方式初步判断集群产生未分配分片的原因,一般都可以在allocation explain api中得到想要的答案。小结可见,集群状态和分片是否分配有直接关系。所以遇到集群状态异常时,直接分析分片没有分配的原因即可,对症下药,从根本解决问题。原创声明,本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。如有侵权,请联系 cloudcommunity@tencent.com 删除。展开阅读全文ElasticsearchService大数据解决方案大数据举报点赞 19分享登录 后参与评论0 条评论相关文章解析 Elasticsearch 棘手问题,集群的 RED 与 YELLOW结果显示分片大都是因为 node_left 导致未分配,然后通过 explain API 查看分片 myindex[3] 不自动分配的具体原因:用户1737318解析 Elasticsearch 棘手问题,集群的 RED 与 YELLOW结果显示分片大都是因为 node_left 导致未分配,然后通过 explain API 查看分片 myindex[3] 不自动分配的具体原因:Java3y线上 Elasticsearch 集群健康值 red 状态问题排查与解决之前一直运行正常的数据分析平台,最近一段时间没有注意发现日志索引数据一直未生成,大概持续了n多天,当前状态: 单台机器, Elasticsearch(下面称ES...haifeiWuElasticSearch排序引起的all shards failed异常原因分析在我们的日志系统里需要一些系统索引,这些系统索引在应用初始化的时候就会被添加到ElasticSearch中去,这些在ElasticSearch中的系统索引在没有...九州暮云Kubernetes集群中,Node异常时Pod状态分析一个节点上运行着pod前提下,这个时候把kubelet进程停掉。里面的pod会被干掉吗?会在其他节点recreate吗?WaltonES集群yellow,Red问题排查及解决1:黄色,表示所有的主分片均可用,但存在不可用副本分片。此时,搜索结果仍然是完整的,但集群的高可用性在一定程度上受到影响,一般会自动恢复。ES小助理大数据的搜索引擎——Elasticsearch结果显示分片大都是因为 node_left 导致未分配,然后通过 explain API 查看分片 myindex[3] 不自动分配的具体原因:CSDN技术头条大数据的搜索引擎——ElasticSearch结果显示分片大都是因为 node_left 导致未分配,然后通过 explain API 查看分片 myindex[3] 不自动分配的具体原因:田维常Elasticsearch 集群和索引健康状态及常见错误说明之前在IDC机房线上环境部署了一套ELK日志集中分析系统, 这里简单总结下ELK中Elasticsearch健康状态相关问题, Elasticsearch的索引...洗尽了浮华记一次Elasticsearch集群异常崩溃的离奇事件本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。岳涛Elasticsearch集群监控指标 “本片主要通过两个API讲解Elasticsearch集群监控的指标说明”create17Elasticsearch运维宝典——监控实战篇Elasticsearch(文中简称 ES)是分布式全文搜索引擎,产品提供高可用、易扩展以及近实时的搜索能力,广泛应用于数据存储、搜索和实时分析。很多服务的可用...京东技术Elasticsearch索引分片损坏该怎么办?(三)本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。岳涛Elasticsearch 最佳实践系列之分片恢复并发故障大家好,今天为大家分享一次 ES 的填坑经验。主要是关于集群恢复过程中,分片恢复并发数调整过大导致集群 hang 住的问题。黄华Elasticsearch 分片恢复并发过高引发的bug分析       大家好,今天为大家分享一次 ES 的填坑经验。主要是关于集群恢复过程中,分片恢复并发数调整过大导致集群 hang 住的问题。老生姜Elasticsearch初识、document CRUD、聚合分析lucene,最先进、功能最强大的搜索库,直接基于lucene开发,非常复杂,api复杂(实现一些简单的功能,写大量的java代码),需要深入理解原理(各种索引...丁DElasticSearch学习笔记1先看第一个问题,如果我们用数据来实现搜索功能,可能的语句就是对 string 建立索引,或者直接 like 关键字。带来的问题是什么?zhuanxu复盘一个Elasticsearch排序问题的剖析直接从异常上看,可以得到是因为mapping里面不存在排序字段的时候,而抛出的异常,正常的情况,如果某个索引不存在并且还去查询该索引,我们可以通过对索引名字后面...我是攻城师更多文章作者介绍岳涛《技思广益 · 腾讯技术人原创集》签约作者腾讯大数据SRE工程师腾讯 · 大数据SRE工程师 (已认证)关注专栏文章50阅读量55.5K获赞1K作者排名54精选专题腾讯云原生专题云原生技术干货,业务实践落地。活动推荐腾讯云自媒体分享计划入驻社区,可分享总价值百万资源包立即入驻邀请好友加入自媒体分享计划邀请好友,同享奖励 30 / 100 / 180 元云服务器代金券立即邀请运营活动广告关闭目录说明集群状态为什么会异常?查看集群状态ES健康接口返回内容官方解释问题分析找到异常索引查看详细的异常信息分片未分配(unassigned_info.reason)的所有可能小结社区专栏文章阅读清单互动问答技术沙龙技术视频团队主页腾讯云TI平台活动自媒体分享计划邀请作者入驻自荐上首页技术竞赛资源技术周刊社区标签开发者手册开发者实验室关于视频介绍社区规范免责声明联系我们友情链接归档问题归档专栏文章归档快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档腾讯云开发者扫码关注腾讯云开发者领取腾讯云代金券热门产品域名注册云服务器区块链服务消息队列 网络加速云数据库域名解析云存储视频直播热门推荐人脸识别腾讯会议企业云CDN 加速视频通话图像分析MySQL 数据库SSL 证书语音识别更多推荐数据安全负载均衡短信文字识别云点播商标注册小程序开发网站监控数据迁移Copyright © 2013 - 2022 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有 京公网安备 11010802017518 粤B2-20090059-1扫描二维码扫码关注腾讯云开发者领取腾讯云代金券