Укрощение неожиданных производственных проблем

Время от времени у вас возникают необъяснимые производственные проблемы. Это влияет на бизнес, и руководство проинструктирует вас, пока кусочки головоломки собраны. Нет способа воссоздать это при настройке QA. Проблема скрывается там довольно долго и становится все более и более частой. Звучит страшно знакомо?

У меня особенная любовь к таким головоломкам. Мне нравится адреналиновый прилив охоты и исследовательский аспект создания теории. Последнее, что я унаследовал, заняло около 6 месяцев, чтобы выяснить, поскольку у унаследованного продукта было много проблем, которые возникли бы с нагрузкой и неудачей, а именно с выбором времени. Для решения проблемы такого масштаба требуются выносливость, итерации, сбор информации и интеллектуальный анализ данных.

Информация ниже покажет вам, что собирать и как обрабатывать собранные данные. Система, с которой я работал, работает на Enterprise Linux Server версии 5.8 (Carthage) и сервере JBoss. Вам нужно будет внести изменения в соответствии с особенностями вашей ОС и сервера приложений.

Вещи, которые помогут на охоте

1. Периодические дампы потоков сохраняются в файл, это может быть так же просто, как задание cron для JMX-консоли JBoss для активации метода jboss.system.ServerInfo listThreadDump

2. Периодическая загрузка процессора, сохраненная в файл, это может быть так же просто, как задание cron для JMX-консоли JBoss для активации метода jboss.system.ServerInfo listThreadCpuUtilization

3. Периодические результаты топ-команды

4. В журнале информации из приложения нет такой вещи, как избыточная отладочная информация. Страница JSP, которая позволяет изменять многословность данной категории, здесь бесценна.

5. Мониторинг программного обеспечения, такого как NewRelic . Он отлично подходит для определения самых медленных транзакций или SQL-запросов, количества времени, затрачиваемого на вызовы во внешние системы, сравнения производительности и составления отчетов по показателям SLA. Смотреть наблюдатель, хотя! Не забудьте обновить свои библиотеки при обновлении на 3 ^RD пакетов партии, JVM или операционную систему на устройстве или компьютере. Проанализируйте его файлы журналов. Откуда я знаю, сложилось несколько болезненное впечатление.

6. Имейте временную метку для вашего инцидента и, если возможно, оповещения о ранних предупреждающих знаках, чтобы вы могли наблюдать за тем, как он работает с DevOps, прежде чем они решат отключить питание.

Мой гуру DevOps Джаред настроил JMX керлинг и топ для меня с помощью cron и скриптов, так что каждые 10 минут происходит обновление.

Это выражение cron

*/10 * * * * /tools/scripts/jboss/threaddump.sh > /dev/null 2>&1

И сам скрипт выглядит так

#!/bin/sh logfile=`date +%H%M%S` logdir=`date +%Y"/"%m"/"%d` datestamp=`date +%Y%m%d` if [ ! -d "/logs/console/$logdir" ]; then mkdir -p /logs/console/$logdir fi curl "http://localhost:8080/jmx-console/HtmlAdaptor?action=invokeOpByName&name=jboss.system%3Atype%3DServerInfo&methodName=listThreadDump" > /logs/console/$logdir/thread_dump_$datestamp_$logfile.html 2>&1 curl "http://localhost:8080/jmx-console/HtmlAdaptor?action=invokeOpByName&name=jboss.system%3Atype%3DServerInfo&methodName=listThreadCpuUtilization" > /logs/console/$logdir/thread_cpu_$logfile.html 2>&1 top -H -b -n 1 > /logs/console/$logdir/top_$logfile.log 2>&1

Теперь пойдем на охоту.

Первый вопрос, который нужно задать: есть ли у меня потоки, которые потребляют чрезмерное количество ресурсов процессора и что они делают ? Посмотрите на консоль JMX вручную или используйте предварительно собранный артефакт 2, чтобы найти список таких потоков. Список будет выглядеть так:

Название темы

CPU (миллисекунды)

AJP-0.0.0.0-8009-13

16783407

AJP-0.0.0.0-8009-8

5566706

AJP-0.0.0.0-8009-15

5087530

Проверьте файлы журналов для последней распечатки из подозрительной нити в журналах. Используется ли поток должным образом или находился в состоянии ожидания в течение нескольких часов без сообщений журнала, что может указывать на бесконечный цикл. Приведенный ниже фрагмент perl позволяет найти последнюю временную метку сообщения журнала из потока в журнале JBoss.

Когда подозреваемый найден, его местонахождение можно проверить вручную с консоли JMX или в артефакте 1. Последние 2 бесконечных цикла, которые я видел, были связаны с использованием HashMap несколькими потоками, что кратко описано здесь .

#!/usr/bin/perl use strict; use warnings; my $dir = '.'; my %threads; opendir(DIR, $dir) or die $!; while (my $file = readdir(DIR)) { # We only want files next unless (-f "$dir/$file"); # Use a regular expression to find files ending in .log.* next unless ($file =~ m/^server\.log\..*$/); open(my $fh, "<$file") or die("Could not open file $file."); foreach my $line (<$fh>) { #2014-02-27 01:00:00,827 25498282 INFO [com.company.client.package.Class] (ajp-0.0.0.0-8009-22:) if ($line =~ /^(201\d).(\d\d).(\d\d)[ \t]+(\d\d:\d\d:\d\d),\d\d\d \d+[ \t]+[A-Z]+[ \t]+[^ \t]+[ \t]+$([^$]+):\).*$/) { $threads{$5} = "$2/$3/$1 $4"; } } close($fh); } foreach my $thread (sort keys %threads) { print "$thread\t$threads{$thread}\n"; } closedir(DIR); exit 0;

Созданная информация должна быть отсортирована в хронологическом порядке:
sort -k2 -r threads.txt > threads_sorted.txt Следующий вопрос должен быть: система испытывает тупики или ресурсные разногласия . Чтобы ответить на такой вопрос, необходимо проанализировать коллекцию артефактов 1 с течением времени. Это причина, почему файлы thread_dump имеют информацию о дате как часть имени. В Linux / Unix простая команда ниже поместит необходимую информацию в один файл: grep -r "lockName:" thread_dump_* > suspects.txt Теперь содержимое можно анализировать в текстовом файле с вкладками, которое можно использовать в старом добром Excel, и просматривать его в сводной таблице. #!/usr/bin/perl -w use strict; use warnings; if(!defined $ARGV[0]){ print "No FilePath Specified!\n"; } my $LOGFILE = $ARGV[0]; print "Time\tThread\tState\tLock Name\tLock Name Class\tCall Stack\n"; open(my $fh, "<$LOGFILE") or die("Could not open log file."); foreach my $line (<$fh>) { if ($line =~ /^thread_dump_(\d\d\d\d)(\d\d)(\d\d)_(\d\d)(\d\d)\d\d.html:(.*)$/) { my $year = $1; my $month = $2; my $date = $1; my $hour = $4; my $min = $5; my $td = $6; my @matches = ($td =~ m/(\>b\<Thread: [^:]+ : priority:\d+, demon:[a-z]+, threadId:\d+, threadState:[A-Z_]+, lockName:[a-zA-Z0-9\$\.\@]+\>br\<\>blockquote\<[ a-zA-Z_\$\.:0-9\>\<]+\>\/blockquote\<)/g); foreach my $x (@matches) { if ($x =~ /^\>b\<Thread: ([^:]+)\>\/b\< : priority:\d+, demon:[a-z]+, threadId:\d+, threadState:([A-Z_]+), lockName:([a-zA-Z0-9\$\.]+)(\@?[0-9a-f]*)\>br\<\>blockquote\<([ a-zA-Z_\$\.:0-9\>\<]+)\>\/blockquote\<$/) { print "$month/$date/$year $hour:$min\t$1\t$2\t$3$4\t$3\t$5\n"; } else { print STDERR "No match : $x\n"; } } } else { print STDERR "No match in line : $line\n"; } } close($fh); Это будет производить контент, как показано ниже Время Нить высказывать Имя замка Имя класса блокировки Стек вызовов 02.06.14 0:00 Обработчик ссылок ОЖИДАНИЯ java.lang.ref.Reference$Lock@57db6806 java.lang.ref.Reference $ Блокировка java.lang.Object.wait (собственный метод) java.lang.Object.wait (Object.java:503) java.lang.ref.Reference $ ReferenceHandler.run (Reference.java:133) < ш> 02.06.14 0:00 RMI TCP Accept-1098 Runnable значение NULL значение NULL java.net.PlainSocketImpl.socketAccept (собственный метод) java.net.AbstractPlainSocketImpl.accept (AbstractPlainSocketImpl.java:398) … 02.06.14 0:00 GC Daemon TIMED_WAITING sun.misc.GC$LatencyLock@10a8ec79 sun.misc.GC $ LatencyLock java.lang.Object.wait (собственный метод) sun.misc.GC $ Daemon.run (GC.java:117) 6/2/14 16:00 AJP-0.0.0.0-8009-3 BLOCKED java.lang.Class@4c6cb02a java.lang.Class java.util.TimeZone.getDefaultInAppContext (TimeZone.java:734) java.util.TimeZone.getDefaultRef (TimeZone.java:630) java.util.Date.normalize (Date.java:1206) <бр > java.util.Date.toString (Date.java:1027) … Агрегация будет выглядеть так Количество потоков Метки колонки заголовки строк BLOCKED TIMED_WAITING ОЖИДАНИЯ Общий итог com.arjuna.ats.arjuna.coordinator.TransactionReaper 97 97 com.enservio.util.ChannelThreadPool $ Channel 388 388 com.mchange.v2.async.ThreadPoolAsynchronousRunner 288 288 com.mchange.v2.resourcepool.BasicResourcePool 2 2 EDU.oswego.cs.dl.util.concurrent.Semaphore 97 97 java.lang.Class 1 1 java.lang.Object 1065 291 1356 java.lang.ref.Reference $ Блокировка 97 97 java.lang.ref.ReferenceQueue $ Блокировка 485 485 java.util.concurrent.locks.AbstractQueuedSynchronizer $ ConditionObject 580 485 1065 java.util.concurrent.Semaphore $ NonfairSync 97 97 java.util.concurrent.SynchronousQueue $ TransferStack 380 380 java.util.HashMap 1 1 java.util.LinkedList 388 388 java.util.TaskQueue 485 194 +679 java.util.TreeSet 97 97 org.apache.tomcat.util.net.JIoEndpoint $ Worker 6531 6531 org.apache.tomcat.util.net.JIoEndpoint $ WorkerStack 2 2 org.hornetq.core.postoffice.impl.PostOfficeImpl $ Жнец 97 97 org.hornetq.core.remoting.server.impl.RemotingServiceImpl $ FailureCheckAndFlushThread 97 97 org.hsqldb.lib.HsqlTimer $ TaskQueue 96 96 sun.misc.GC $ LatencyLock 97 97 Общий итог 2 3379 9057 12438 The pivot table like the one above, allows to see where the threads are waiting and/or blocked. The stack traces are readily available to drill down. This allowed to identify memcached client default configuration as a bottle neck in my practice along as pointed to architectural deficiency created by the use of the memcached values through application life cycle. It manifested itself though as BLOCKED threads on com.mchange.v2.resourcepool.BasicResourcePool — JDBC connections not released in time for others to re-use. Additional clues that can be collected are exceptions from log files (artifact 4) or errors from artifact 5. First one can be collected by the following command with the manual aggregation: grep -r Exception server.* > exceptions.txt Second one will have all the aggregation already done. Of particular interest are timeout related messages in the logs: grep -ir timeout server.* > timeout.txt Everything else is application specific and will reflect logging messages of a particular system. It can be processed in the same way to extract metrics and correlate them over time. With all the information at hand, start from the timestamp of the incident and go back in time through the artifacts to find the tipping point where it all started collapsing. You may find multiple issues nested one on top of another. Create an action plan for each issue and work to implement the fixes one by one. It can take multiple iterations in production to iron out all of those, so be patient and keep hunting.

Share:

Укрощение неожиданных производственных проблем

Категории

Последние статьи

Рефакторинг Hudson God Class

Альтернативы синтаксиса Java лямбда

Morphia и MongoDB: развивающиеся структуры документов

OpenShift Express: развертывание приложения Java EE (с поддержкой AS7)

Интеграция jqGrid, REST, AJAX и Spring MVC