Technoprom2023

Задача проекта

Задача проекта состоит в том, чтобы автоматически собрать информацию о стратегических проектах университетов, участвующих в программе "Приоритет 2030" с веб-сайта priority2030.ru. Это включает в себя извлечение названий стратегических проектов и их кратких описаний, если они доступны. Всего в программе участвует 129 университетов, и у каждого из них на сайте есть свой раздел с описанием стратегических проектов. Необходимо все было оформить в Excel-таблицу, в которой находятся следующие столбцы: Университет, сайт программ, название программы, Описание стратегического проекта, Цель стратегического проекта, Задачи стратегического проекта, Ожидаемые результаты стратегических проектов, а также столбец с обозначением проекта - спецчасть (1) / базовый (0).

Далее необходимо было, используя метод машинного обучения определить какие ключевые слова или фразы могут помочь отделить стратегические проекты университетов базовой части от стратегических проектов спец. части на основе их описаний.

Происходило это следующим образом:

В каждом описании проектов необходимо было удалить стоп-слова (ненужные), произвести лемматизацию (приведение слова к его базовой форме)
Каждое описание векторизировали с помощью TF-IDF (мера, используемая для оценки важности слова в контексте документа)
С помощью модели DecisionTreeClassifier на основе векторизированных данных оценивали каждый проект (куда относится проект по их описаниям)

Результаты точности модели: accuracy - 0.85, recall - 0.615.

Один из результатов предсказания модели можно посмотреть в decision_tree.pdf

Также есть видеопрезентация проекта от моего научного руководителя Павловского Евгения Николаевича.

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
README.md		README.md
bag_of_words.py		bag_of_words.py
data_scraper.py		data_scraper.py
decision_tree.pdf		decision_tree.pdf
excel_manager.py		excel_manager.py
fragment.html		fragment.html
geckodriver.log		geckodriver.log
get_urls.py		get_urls.py
main.py		main.py
model.py		model.py
output.xlsx		output.xlsx
result.xlsx		result.xlsx
text preprocessing.py		text preprocessing.py
text preprocessing.xlsx		text preprocessing.xlsx
tfidf.xlsx		tfidf.xlsx

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Technoprom2023

Задача проекта

About

Releases

Packages

Languages

anchsemen/Technoprom2023

Folders and files

Latest commit

History

Repository files navigation

Technoprom2023

Задача проекта

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages