0
Отвечен

Максимально возможный размер листа стоп-слов?

Никита Савельев 4 года назад обновлен SocialKit (Руководитель ТП) 4 года назад 3

Добрый день,

Задался вопросом — насколько максимально можно расширить список стоп-слов, чтобы это не сильно замедляло процесс фильтрации и не грузило систему?
У меня, например, есть список из 500 000+ арабских слов ))
Не думаю, что нужно закидывать в список все, но хочется максимально чистой фильтрации.
Какой размер файла стоп-слов, по вашему опыту, максимально комфортный для фильтрации?
Сейчас использую базу в 4000 слов выложенную где-то, уменьшение в скорости фильтрации после вашего фильтра не заметил. 100 000 потянет?)

Версия программы:
На рассмотрении

Здравствуйте!


Какая задача стоит перед фильтром? Исключить арабов? А какая нужна аудитория в конечном итоге?

Здравствуйте!
Исключить арабов, японцев, китайцев, португальцев, испанцев, немцев, французов, итальянцев и вообще максимально четко обозначить, с какими словами отбирать аккаунты не стоит. Большой список стоп-слов еще может быть полезен, когда там только русские слова и фильтруются не на исключение, а наоборот, только на выборку аккаунтов с этими словами.
Сделал список стоп-слов порядка 10-12 тыс слов, вроде изменений в скорости работы не замечено.

Отвечен

Если Вам нужны только русские, то все намного проще! Вы выставляете фильтр по гендерным в приоритете "количество" и фильтруете, например, женщин. В результатах будут все профили со славянскими признаками. Если нужны профили с русским текстом, то поставьте приоритет "точность". Точно также поступаете с мужчинами. Лучше перед этим собрать оффлайн базу и в дальнейшем поиграться с фильтром уже на оффлайн базе с различными настройками фильтра - сэкономите время. Только запаситесь свободным местом, если список на фильтрацию большой, т.к. оффлайн база будет огромной. Свободных 5-10 Гб точно хватит на 1 млн. профилей.

Сервис поддержки клиентов работает на платформе UserEcho