deeppavlov · dilyararimovna · Feb 8, 2022 · Feb 1, 2022 · Feb 3, 2022 · Feb 3, 2022
diff --git a/annotators/BadlistedWordsDetector/Dockerfile b/annotators/BadlistedWordsDetector/Dockerfile
@@ -5,6 +5,10 @@ RUN mkdir /src
 COPY ./requirements.txt /src/requirements.txt
 RUN pip install -r /src/requirements.txt
 RUN spacy download en_core_web_sm
+RUN spacy download ru_core_news_sm
+
+ARG LANGUAGE
+ENV LANGUAGE ${LANGUAGE}
 
 COPY . /src/
 WORKDIR /src

diff --git a/annotators/BadlistedWordsDetector/badlists/bad_words_ru.txt b/annotators/BadlistedWordsDetector/badlists/bad_words_ru.txt
@@ -0,0 +1,199 @@
+БЛЯДЬ
+БЛЯТЬ
+ЕБАТЬ
+ПИЗДА
+ХЕР
+ХУЙ
+БЕСПИЗДАЯ
+БЛЯ
+БЛЯДВА
+БЛЯДИАДА
+БЛЯДИНА
+БЛЯДИСТОСТЬ
+БЛЯДКИ
+БЛЯДОВАТЬ
+БЛЯДОГОН
+БЛЯДОСЛОВНИК
+БЛЯДУН
+БЛЯДЬ
+БЛЯХОМУДИЯ
+ВЗБЛЯД
+ВЗЪЕБНУТЬ
+ВЗЪЕБЩИК
+ВПИЗДИТЬ
+ВПИЗДИТЬСЯ
+ВПИЗДРОНИВАТЬ
+ВПИЗДРОНИВАТЬСЯ
+ВПИЗДЮЛИТЬ
+ВПИЗДЯЧИТЬ
+ВПИЗЖИВАТЬ
+ВПИЗЖИВАТЬСЯ
+ВХУЯРИВАНИЕ
+ВЫБЛЯДОК
+ВЫЕБАТЬ
+ВЫЕБОК
+ВЫЕБОН
+ВЫПИЗДЕТЬСЯ
+ВЫПИЗДИТЬ
+ВЪЕБАТЬ
+ГЛУПИЗДИ
+ГРЕБЛЯДЬ
+ДЕРЬМОХЕРОПИЗДОКРАТИЯ
+ДОЕБАТЬСЯ
+ДОПИЗДЕТЬСЯ
+ДОХУЙНУТЬ
+ЕБАЛКА
+ЕБАЛОВО
+ЕБАЛЬНИК
+ЕБАНАТИК
+ЕБАНДЕЙ
+ЕБАНУТЫЙ
+ЕБАНЬКО
+ЕБАРИШКА
+ЕБАТОРИЙ
+ЕБАТЬСЯ
+ЕБАШИТ
+ЕБИСТИКА
+ЕБЛАН
+ЕБЛАНИТЬ
+ЕБЛИВАЯ
+ЕБЛЯ
+ЕБУКЕНТИЙ
+ЗАЕБАТЬ
+ЗАЕБИСЬ
+ЗАЕБАТЬСЯ
+ЗАПИЗДЕНЕВАТЬ
+ЗАПИЗДЕТЬ
+ЗАПИЗДИТЬ
+ЗАПИЗЖИВАТЬСЯ
+ЗАХУЯРИТЬ
+ИСПИЗДИТЬ
+ИСХУЯЧИТЬ
+МНОГОПИЗДНАЯ
+НАБЛЯДОВАЛ
+НАЕБАЛОВО
+НАЕБАТЬ
+НАЕБАТЬСЯ
+НАЕБАШИЛСЯ
+НАЕБЕНИТЬСЯ
+НАЕБНУТЬ
+НАХУЕВЕРТЕТЬ
+НАХУЙ
+НАХЕР
+НАХУЯРИВАТЬ
+НАХУЯРИТЬСЯ
+НАПИЗДЕТЬ
+НАПИЗДИТЬ
+НАСТОЕБАТЬ
+НЕВЪЕБЕННЫЙ
+НЕХУЙ
+ОБЕРБЛЯДЬ
+ОБЪЕБАЛОВО
+ОБЪЕБАТЕЛЬСТВО
+ОБЪЕБАТЬ
+ОБЪЕБАТЬСЯ
+ОБЪЕБОС
+ОПИЗДЕНЕВАТЬ
+ОПИЗДИХУИТЕЛЬНЫЙ
+ОПИЗДОУМЕЛ
+ОСТОПИЗДЕЛО
+ОСТОПИЗДЕТЬ
+ОСТОХУЕТЬ
+ОТПИЗДИТЬ
+ОТХУЯРИВАТЬ
+ОТЪЕБАТЬСЯ
+ОХУЕННЫЙ
+ОХУИТЕЛЬНЫЙ
+ОХУЯЧИВАТЬ
+ОХУЯЧИТЬ
+ПЕРЕЕБАТЬ
+ПЕРЕХУЯРИВАТЬ
+ПЕРЕХУЯРИТЬ
+ПИЗДАБОЛ
+ПИЗДАКРЫЛ
+ПИЗДАНУТЬ
+ПИЗДАНУТЬСЯ
+ПИЗДЕЛИТЬСЯ
+ПИЗДЕТЬ
+ПИЗДЕЦ
+ПИЗДИТЬ
+ПИЗДОБЛОШКА
+ПИЗДОБРАТ
+ПИЗДОБРАТИЯ
+ПИЗДОВЛАДЕЛЕЦ
+ПИЗДОДУШИЕ
+ПИЗДОЛЕТ
+ПИЗДОЛИЗ
+ПИЗДОМАНИЯ
+ПИЗДОПЛЯСКА
+ПИЗДОСТРАДАЛЕЦ
+ПИЗДОСТРАДАНИЯ
+ПИЗДОХУЙ
+ПИЗДОШИТЬ
+ПИЗДРИК
+ПИЗДУЙ
+ПИЗДУН
+ПИЗДЮК
+ПИЗДЮЛИ
+ПИЗДЮЛИНА
+ПИЗДЮЛЬКА
+ПИЗДЮЛЯ
+ПИЗДЮРИТЬ
+ПИЗДЮХАТЬ
+ПИЗДЮШНИК
+ПОДЗАЕБАТЬ
+ПОДЗАЕБЕНИТЬ
+ПОДНАЕБНУТЬ
+ПОДНАЕБНУТЬСЯ
+ПОДЪЕБНУТЬ
+ПОЕБАТЬ
+ПОЕБЕНЬ
+ПОПИЗДЕТЬ
+ПОПИЗДИЛИ
+ПОХЕР
+ПОХУЙ
+ПОХУЯРИЛИ
+ПРИЕБАТЬСЯ
+ПРИПИЗДЕТЬ
+ПРИПИЗДИТЬ
+ПРИХУЯРИТЬ
+ПРОБЛЯДЬ
+ПРОЕБАТЬ
+ПРОЕБАТЬСЯ
+ПРОПИЗДИТЬ
+РАЗЪЕБАЙ
+РАЗЪЕБАТЬСЯ
+РАСПИЗДОН
+РАСПИЗДЯЙСТВО
+РАСХУЮЖИТЬ
+СУХОПИЗДАЯ
+СХУЯРИТЬ
+СЪЕБАТЬСЯ
+ТРЕПЕЗДОН
+ТРЕПЕЗДОНИТ
+ТУЕБЕНЬ
+ТУПИЗДЕНЬ
+УЕБАТЬ
+УПИЗДИТЬ
+ХУЕВ
+ХУЕВАТЕНЬКИЙ
+ХУЕВАТО
+ХУЕБРАТИЯ
+ХУЕГЛОТ
+ХУЕГРЫЗ
+ХУЕДИН
+ХУЕЛЕС
+ХУЕМАН
+ХУЕМЫРЛО
+ХУЕПУТАЛО
+ХУЕСОС
+ХУЕТА
+ХУЕТЕНЬ
+ХУЙЛО
+ХУЙНУТЬ
+ХУЯЦИЯ
+ХУЛИ
+ХУЯ
+ХУЯК
+ХУЯЧИТЬ
+ШИРОКОПИЗДАЯ
diff --git a/annotators/BadlistedWordsDetector/requirements.txt b/annotators/BadlistedWordsDetector/requirements.txt
@@ -2,5 +2,5 @@ flask==1.1.1
 gunicorn==19.9.0
 requests==2.22.0
 sentry-sdk==0.12.3
-spacy==3.0.5
+spacy==3.2.0
 click==7.1.2
diff --git a/annotators/BadlistedWordsDetector/server.py b/annotators/BadlistedWordsDetector/server.py
@@ -15,6 +15,7 @@
 
 
 sentry_sdk.init(getenv("SENTRY_DSN"))
+LANGUAGE = getenv("LANGUAGE", "ENGLISH")
 
 logging.basicConfig(format="%(asctime)s - %(name)s - %(levelname)s - %(message)s", level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -82,12 +83,12 @@ def __init__(self, path):
         Args:
             path: Path object to badlist file, one badlisted phrase per line
         """
-        self.name = path.stem
+        self.name = path.stem.replace("_ru", "")
         self.badlist = set()
         with path.open() as f:
             for _phrase in f:
                 phrase = _phrase.split(",")[0]
-                tokenized = en_nlp(phrase.strip().lower())
+                tokenized = nlp_pipeline(phrase.strip().lower())
                 self.badlist.add(" ".join([str(token) for token in tokenized]))
                 lemmatized_variants = lemmatize(tokenized)
                 for lemmatized in lemmatized_variants:
@@ -143,18 +144,25 @@ def collect_ngrams(utterance: Doc, max_ngram: int):
     return all_ngrams
 
 
-en_nlp = spacy.load("en_core_web_sm", exclude=["senter", "ner"])
+if LANGUAGE == "RUSSIAN":
+    nlp_pipeline = spacy.load("ru_core_news_sm", exclude=["senter", "ner"])
+    badlists_dir = Path("./badlists")
+    badlists_files = [f for f in badlists_dir.iterdir() if f.is_file() and "_ru" in f.name]
 
-badlists_dir = Path("./badlists")
-badlists_files = [f for f in badlists_dir.iterdir() if f.is_file()]
+    badlists = [Badlist(file) for file in badlists_files]
+    logger.info(f"badlisted_words initialized with following badlists: {badlists}")
+else:
+    nlp_pipeline = spacy.load("en_core_web_sm", exclude=["senter", "ner"])
+    badlists_dir = Path("./badlists")
+    badlists_files = [f for f in badlists_dir.iterdir() if f.is_file() and "_ru" not in f.name]
 
-badlists = [Badlist(file) for file in badlists_files]
-logger.info(f"badlisted_words initialized with following badlists: {badlists}")
+    badlists = [Badlist(file) for file in badlists_files]
+    logger.info(f"badlisted_words initialized with following badlists: {badlists}")
 
 
 def check_for_badlisted_phrases(sentences):
     result = []
-    docs = list(en_nlp.pipe([s.lower() for s in sentences]))
+    docs = list(nlp_pipeline.pipe([s.lower() for s in sentences]))
     for doc in docs:
         ngrams = collect_ngrams(doc, max([bl.max_ngram for bl in badlists]))
         result += [{blist.name: blist.check_set_of_strings(ngrams) for blist in badlists}]

diff --git a/annotators/BadlistedWordsDetector/test.py b/annotators/BadlistedWordsDetector/test.py
@@ -1,12 +1,19 @@
 import requests
+from os import getenv
 
 
 def main():
     url = "http://0.0.0.0:8018/badlisted_words"
 
-    request_data = {
-        "sentences": ["any fucks in this sentence", "good one", "fucked one"],
-    }
+    LANGUAGE = getenv("LANGUAGE", "ENGLISH")
+    if LANGUAGE == "RUSSIAN":
+        request_data = {
+            "sentences": ["пизда настала", "застрахуйте уже его", "пошел нахер!"],
+        }
+    else:
+        request_data = {
+            "sentences": ["any fucks in this sentence", "good one", "fucked one"],
+        }
 
     result = requests.post(url, json=request_data).json()
     gold_result = [{"bad_words": True}, {"bad_words": False}, {"bad_words": True}]

diff --git a/assistant_dists/dream_russian/docker-compose.override.yml b/assistant_dists/dream_russian/docker-compose.override.yml
@@ -89,6 +89,8 @@ services:
   badlisted-words:
     env_file: [.env]
     build:
+      args:
+        LANGUAGE: RUSSIAN
       context: annotators/BadlistedWordsDetector/
     command: flask run -h 0.0.0.0 -p 8018
     environment: