Automatyczna analiza jakości usług turystycznych w oparciu o recenzje klientów z wykorzystaniem otwartych wielkich modeli językowych
Grant ID: PT01333
Project leader: Jacek Winiarski
Uniwersytet Gdański
Wydział Ekonomiczny
Sopot
Start date: 2026-03-02
Planned end date: 2028-03-02
Project summary
Cel
Celem projektu jest opracowanie i walidacja metodologii automatycznej analizy opinii klientów w sektorze turystycznym z wykorzystaniem otwartych wielkich modeli językowych (Open Source LLM).
Projekt odpowiada na następujące pytanie badawcze:
Czy otwarte modele językowe o różnych architekturach wykazują wystarczającą zgodność wyników w zadaniu wielowymiarowej analizy sentymentu, aby można je uznać za wiarygodne narzędzie badawcze?
Dane
Prywatny zbiór danych składający się z 15 milionów recenzji obiektów noclegowych, zebranych z platform rezerwacyjnych dla różnych miast europejskich.
Metodologia
Etap 1: Ekstrakcja wielowymiarowego sentymentu
Wykorzystanie następujących otwartych modeli językowych:
• Meta Llama 3.1 70B (huggingface.co/meta-llama/Llama-3.1-70B-Instruct),
• Qwen 2.5 72B (huggingface.co/Qwen/Qwen2.5-72B-Instruct),
• DeepSeek-V3 (huggingface.co/deepseek-ai/DeepSeek-V3),
• Mistral Large 2 (huggingface.co/mistralai/Mistral-Large-Instruct-2407),
• potencjalnie również inne otwarte modele językowe.
Każdy model przetworzy pełny zbiór 15 milionów recenzji, wyodrębniając oceny sentymentu dla sześciu wymiarów jakości usług: czystość, lokalizacja, obsługa, wartość w stosunku do ceny, komfort oraz udogodnienia.
Etap 2: Walidacja międzymodelowa
Systematyczna analiza spójności wyników pomiędzy modelami obejmująca:
• analizę korelacji pomiędzy parami modeli dla każdego wymiaru jakości,
• identyfikację przypadków konsensusu oraz istotnych rozbieżności,
• testowanie wpływu hiperparametrów (temperatura, top-p) na stabilność wyników.
Etap 3: Analiza pozycji konkurencyjnej obiektów
Wielopoziomowa analiza statystyczna z wykorzystaniem hierarchicznego modelowania bayesowskiego (MCMC) w celu rozdzielenia:
• efektów rynkowych (standardy segmentów i lokalizacji),
• efektów indywidualnych (wyniki osiągane przez konkretne obiekty noclegowe).
Narzędzia
Python, R
Planowany cykl artykułów
Wyniki projektu posłużą do przygotowania publikacji w ramach Joint Special Issue: Large Language Models (LLMs) for Tourism and Tourists czasopism Annals of Tourism Research oraz Information Processing & Management
(https://www-sciencedirect-com.libproxy2.usc.edu/special-issue/326025/joint-special-issue-call-for-papers-large-language-models-llms-for-tourism-and-tourists).
• Annals of Tourism Research (IF ~12),
• Information Processing & Management (IF ~8).
Celem projektu jest opracowanie i walidacja metodologii automatycznej analizy opinii klientów w sektorze turystycznym z wykorzystaniem otwartych wielkich modeli językowych (Open Source LLM).
Projekt odpowiada na następujące pytanie badawcze:
Czy otwarte modele językowe o różnych architekturach wykazują wystarczającą zgodność wyników w zadaniu wielowymiarowej analizy sentymentu, aby można je uznać za wiarygodne narzędzie badawcze?
Dane
Prywatny zbiór danych składający się z 15 milionów recenzji obiektów noclegowych, zebranych z platform rezerwacyjnych dla różnych miast europejskich.
Metodologia
Etap 1: Ekstrakcja wielowymiarowego sentymentu
Wykorzystanie następujących otwartych modeli językowych:
• Meta Llama 3.1 70B (huggingface.co/meta-llama/Llama-3.1-70B-Instruct),
• Qwen 2.5 72B (huggingface.co/Qwen/Qwen2.5-72B-Instruct),
• DeepSeek-V3 (huggingface.co/deepseek-ai/DeepSeek-V3),
• Mistral Large 2 (huggingface.co/mistralai/Mistral-Large-Instruct-2407),
• potencjalnie również inne otwarte modele językowe.
Każdy model przetworzy pełny zbiór 15 milionów recenzji, wyodrębniając oceny sentymentu dla sześciu wymiarów jakości usług: czystość, lokalizacja, obsługa, wartość w stosunku do ceny, komfort oraz udogodnienia.
Etap 2: Walidacja międzymodelowa
Systematyczna analiza spójności wyników pomiędzy modelami obejmująca:
• analizę korelacji pomiędzy parami modeli dla każdego wymiaru jakości,
• identyfikację przypadków konsensusu oraz istotnych rozbieżności,
• testowanie wpływu hiperparametrów (temperatura, top-p) na stabilność wyników.
Etap 3: Analiza pozycji konkurencyjnej obiektów
Wielopoziomowa analiza statystyczna z wykorzystaniem hierarchicznego modelowania bayesowskiego (MCMC) w celu rozdzielenia:
• efektów rynkowych (standardy segmentów i lokalizacji),
• efektów indywidualnych (wyniki osiągane przez konkretne obiekty noclegowe).
Narzędzia
Python, R
Planowany cykl artykułów
Wyniki projektu posłużą do przygotowania publikacji w ramach Joint Special Issue: Large Language Models (LLMs) for Tourism and Tourists czasopism Annals of Tourism Research oraz Information Processing & Management
(https://www-sciencedirect-com.libproxy2.usc.edu/special-issue/326025/joint-special-issue-call-for-papers-large-language-models-llms-for-tourism-and-tourists).
• Annals of Tourism Research (IF ~12),
• Information Processing & Management (IF ~8).
Contact
Traugutta 75, Street, 80-221 Gdańsk
tel.: + 48 58 347 24 11
email: office@task.gda.pl
NIP: 584-020-35-93
REGON: 000001620
Opening hours: Monday-Friday 08.00 am – 03.00 pm