0
На рассмотрении

Плохая выживаемость технических аккаунтов при сборе аудитори #2

Mrrr-Lev 5 лет назад обновлен Агент поддержки 6 8 месяцев назад 15

Здравствуйте. Ранее мною уже поднималась подобная тема.


При парсинге с опцией "использовать технические аккаунты одновременно" сбор в 99% случаев завершается в рандомных местах. Виной тому отключение технических аккаунтов во время парсинга. В прошлый раз сошлись на том что нужно использовать большее количество техничек, однако это не явилось выходом из ситуации.


Возможно ли в программу добавить удержание задания, даже если технички временно отключились, пока сбор не будет произведён полностью, со всех заявленных в списке пользователей. Время ожидания не важно. Формально данная фича присутствует, однако отрабатывает некорректно. Как указал ранее, при повторных перезапусках, обрывы полностью рандомны. Задание отключается то на 500к то на 1млн пользователей.


В данный момент адекватно парсить просто не реально, хотя скорость у вашего софта вне конкуренции.


Блгодарю.

Версия программы:
1.63.2
+1
Отвечен

Здравствуйте.


Не все технические аккаунты годятся для сбора аудитории. Для некоторых аккаунтов инстаграм возвращает не все профили. Специально для выявления таких аккаунтов в версии 1.63.2 была добавлена возможность проверки технических аккаунтов перед сбором аудитории по конкурентам. За это отвечает кнопка "Проверить технические аккаунты" на вкладке формирования аудитории по конкурентам.


Настройки при каждом варианте сбора по конкурентам разные и они описаны в статье (изучайте кейсы):

http://support.socialkit.ru/topics/1365-formirovanie-auditorii-po-konkurentam/

При одновременном сборе нужно устанавливать "Запросов на один аккаунт 4990", т.к. Instagram выдает лимит в 5000 запросов в час, а также определенный лимит на частоту запросов в единицу времени.


Нужно еще понимать в каких случаях лучше ставить одновременный сбор, а в каких нет.


Например, если у вас 10 тех.аккаунтов (ТА), а конкурентов для сбора всего 2, то при одновременном сборе будут участвовать в сборе 2 ТА, причем, если один ТА соберет со своего конкурента раньше другого, он перейдет в режим ожидания, а сбор будет продолжать второй ТА со своего конкурента.


При сборе с 10-ти конкурентов в одновременном сборе будут участвовать 10 ТА. Если у конкурентов примерно поровну аудитории, все 10 ТА будут собирать одновременно. Если у 5-ти конкурентов по 20 тыс. аудитории, у 3-х по 100 тыс., а у 2-х по 1 млн., то сначала соберут и отключатся первые 5 ТА, затем вторые 3 ТА, и в конце останутся в сборе 2 ТА, которые собирают по 1 млн. аудитории.


Также аккаунты в процессе сбора могут достигать лимита на обращение к серверу и автоматически ставиться на паузу, пока инстаграм не снимет ограничение, после паузы сбор с такого аккаунта продолжается. Выставленные в настройках по умолчанию 30 секунд тайм-аута с повторением 10 раз в случае ошибки (т.е. в случае превышения лимита) обычно хватает, чтобы дождаться окончания паузы и продолжить сбор. Если эти значения уменьшить, то паузы может не хватить и аккаунт завершит свою часть сбора.


Поэтому идеальный вариант для одновременного сбора - это сбор двадцатью ТА с 20-ти конкурентов по 50 тыс. аудитории.


В некоторых случаях лучше отключать одновременный сбор и выставлять 32 запроса на аккаунт.

Наконец-то прочитал вразумительный и полный ответ) Примечание: В каких случаях стоит использовать сбор и выставлять значение 32 на аккаунт?!

Здравствуйте! Можно это делать везде, где не используется одновременный режим сбора.

Благодарю вас за детальное разъяснение, однако эту информацию уже тщательно изучил ранее, все статьи и кейсы прочитаны, т.к. хочется побороть наконец таки парсинг объёмных баз.


В данный конкретный момент проблема возникает при 15 тех аккаунтах и сборе 4.5млн аудитории со 144х профилей конкурентов. Опция "Проверить технические аккаунты" перед запуском используется. Лимиты запросов стоят по умолчанию. Одноврменно задана фильтрация по стоп словам.


Вся проблема в рандомности завершения задания. Один раз программа может собрать 100тыс аккаунтов, при следующем же перезапуске в одинаковых условиях - 400тыс. Это очень не удобно и вводит в ступор. Я готов ждать сбора сколько угодно дополнительного времени, лишь бы задание выполнялось стабильно.


В этом и состоял главный вопрос. Почему программа решает закончить сбор в произвольных местах, не дождавшись вывода тех аккаунтов из временного блока.

Здравствуйте!


Если технические аккаунты проходят проверку и прокси, на которых "сидят" технические аккаунты работают без сбоев, а также нет проблем с Интернет-соединением, то база соберется в полном объёме. Напоминаем, что задачи сбора и фильтрации нагрузочные, а это означает, что из них создается очередь. Одновременно их выполнять не имеет смысла, т.к. это только замедлит общий прогресс. Потому при работающем сборе, например, по конкурентам в одновременном режиме нет смысла ставить одновременно еще и фильтрацию. Скорость сбора по конкурентам в одновременном режиме при достаточном числе ТА можно посмотреть на видео, которые прикреплены на главной странице форума. На данный момент наш парсер обгоняет все существующие сервисы.

>Если технические аккаунты проходят проверку и прокси, на которых "сидят" технические аккаунты работают без сбоев, а также нет проблем с Интернет-соединением, то база соберется в полном объёме.


Увы не собирается. Поэтому мы все здесь собрались.


>Напоминаем, что задачи сбора и фильтрации нагрузочные, а это означает, что из них создается очередь. Одновременно их выполнять не имеет смысла, т.к. это только замедлит общий прогресс.


Раз в настройке сбора по конкурентам, имеется опция фильтра по стоп словам, то видимо какой то смысл добавлять эту функцию был. Ну да ладно, мы парни не гордые можем в два этапа провести парсинг. Но далее утыкаемся в проблему ниже.


>Скорость сбора по конкурентам в одновременном режиме при достаточном числе ТА можно посмотреть на видео, которые прикреплены на главной странице форума. На данный момент наш парсер обгоняет все существующие сервисы.


В который раз повторюсь, попытайтесь услышать меня. Мне не важна скорость ценой стабильности.

Задание каждый раз завершается в произвольных местах.


  • Программа никак не даёт мне понять почему это произошло. Ни логами, ничем.
  • Программа не может подождать выхода техничек из временного аута, или переждать неполадки со связью.
  • Программа не даёт мне продолжить задание с места обрыва.

Я считаю завершение задания должно быть мотивированно и поддаваться контролю. Это не случайное стихийное бедствие которое невозможно предсказать.

На рассмотрении

>>Раз в настройке сбора по конкурентам, имеется опция фильтра по стоп словам, то видимо какой то смысл добавлять эту функцию был. Ну да ладно, мы парни не гордые можем в два этапа провести парсинг. Но далее утыкаемся в проблему ниже.


По формулировке в предыдущем посте не так Вас поняли. Сложилось впечатление, что речь идет о параллельно работающей фильтрации (комплексный многопоточный фильтр). Если речь о блоке фильтра именно в сборе по конкурентам, то его можно использовать, разумеется параллельно со сбором аудитории.


Вы ошибаетесь в следующих утверждениях:


>>Программа не может подождать выхода техничек из временного аута, или переждать неполадки со связью.


Программа имеет средства обнаружения временной блокировки аккаунтов по превышению числа запросов в единицу времени. Именно для этого есть настройки в техническом блоке.


>>Программа не даёт мне продолжить задание с места обрыва.


Технически это сделать нельзя, т.к. запросы, которые отправляются на сервера Instagram не могут быть статичны даже в пределах одного и того же конкурента с минимально возможным временным интервалом.


Давайте разбираться, какие Вы ставите настройки сбора. Что с техническими аккаунтами, если после остановки сбора сразу сделать их повторную инициализацию? Запрос на SMS, капчу, другое?



>>Давайте разбираться, какие Вы ставите настройки сбора. Что с техническими аккаунтами, если после остановки сбора сразу сделать их повторную инициализацию? Запрос на SMS, капчу, другое?


Мною испытывались различные комбинации. Как по количеству аккаунтов, та и по использованию прокси или не использованию их вовсе.


Крайние попытки выполнялись с 20 аккантов без прокси серверов.

Задание просто завершается в произвольных местах. В окошке-логе напротив каждого конкурента стоит статус сбора "ок".


Аккаунты далее обновляются и инициализируются без проблем. Ни смс, ни капчи, на запроса на почту. Задание тут же можно запустить в ручную еще раз, но уже с другим результатом сбора на выходе.

Здравствуйте.

Чтобы помочь вам разобраться с настройками, нам нужно больше информации. Создайте, пожалуйста приватный тикет и приведите в нем скриншоты настроек сбора, список конкурентов и файл со стоп-словами. Также проверьте ваши 20 аккаунтов без прокси кнопкой "Проверить технические аккаунты" и сообщите все ли тех.аккаунты в статусе ОК.

Ребята, мы еще раз напоминаем всем, что данный форум предназначен для решения вопросов по программе, которая называется SocialKit. Любое обсуждение сторонних сервисов мы будем удалять. Для этого в Интернете полно общедоступных тематических "курилок".

Очень интересно чем дело кончилось. Столкнулся с той же самой проблемой
Расскажите?

Здравствуйте. Если Вы столкнулись с той или иной проблемой при работе, то создайте приватный тикет на форуме, где подробно опишите о проблеме, мы Вас сориентируем.

Я вижу, что у вас было обстоятельное обсуждение, где вы и пользователь не сразу пришли к пониманию.

И для меня остаётся загадкой почему диалог прерван и переведён в приват.

Поэтому я очень надеюсь получить комментарий самого пользователя, а не агента поддержки

Об этом было написано выше. В открытых тикетах обсуждаются общие вопросы по программе. Если тот или иной пользователь столкнулся с той или иной проблемой, то в таком случае могут потребоваться для проверки любые данные (настройки, логи, аккаунты) - все условия для воспроизведения той или иной проблемы.

Сервис поддержки клиентов работает на платформе UserEcho