Portfolio

[Origin]

2305.01548 (arxiv.org)

[Summary]

반복 그래프 NN(GNN)을 통한 설명 가능한 QnA 대화

[Contents]

[Abstract]

ConvQnA: 대화형 qna

현재 많은 대화형 qna들은 단일 소스에서만 정보를 취합하고 있다. 이를 그래프를 활용하여 여러 소스로 늘리려 한다.

[introduction]

motivation

동기

ConvQnA의 주요 과제: 현재의 대화 맥락을 이해하는 것:

why?: 많은 사용자들의 대화는 불완전하기 때문이다. 이는 ‘맥락’을 통해서만 이해 가능하다.

기존에는 이러한 대답에 대해 curated knowledge base(지식, KB), text corpus(text), web table(인터넷) 중 ‘하나’를 사용하여 대답을 해주었다. 이는 적합하지 않다. 서로 다른 소스들이 서로를 보완해 줄 수 있기 때문이다.

예를 들어 밑과 같은 대화가 있다고 해보자.

예를 들어 q1, q3는 KB를 통해 설명할 수 있고, q3, q5, q6를 답하기 위해서는 web table, info box 등이 사용될 수 있다. 마지막으로q2, q3, q4를 답하기 위해서는 text source를 사용할 수 있을 것이다.

→ 개별 소스만으로는 모든 정보를 얻을 수 없다.

limitations of state-of-the-art methods

기존에도 seq2seq로 이를 해결하기 위한 노력이 있었다.

하지만 seq2seq는 evidence 소실이 있다. (rnn에서의 한계점)

approach

새로운 모델 제안: Explaignn1

pipeline

불완전한 질문에 대하여 완전한 구조적 표현을 도출한다.

여러 정보 소스에서 관련 evidence/답변을 찾는다.

GNN(그래프 신경망)을 통해서 최적의 evidence/증거를 제공한다.

⇒ goal 그래프를 줄이면서 최적의 답변을 찾는다.

위 그림: SR ={작품, 소설, 영화 찍는 사람, 사람} → 이를 바탕으로 GNN하고, 그래프 찾는 모습

Pros

이질적인 질문에 대한(heterogeneous sources) 응답의 새로운 방식을 제안하며, 설명 가능한 답변을 준다.

새로운 GNN 메커니즘 고안

passing only question-relevant information is spread over the local neighborhoods. 알고리즘 개발

[Concept and Notation]

주요 개념과 notation이다.

질문: q, 사실 정보를 묻는 것 (의도가 명시적=저자가 누구야?, 또는 암시적=책은 총 몇 페이지야?)

답변: a, entity(=J.K 롤링) 개체 사물, 또는 literal(= 111p) 값

대화: q와 a가 번갈아 가며 이루어 진다.

turn: 대화^T는 한 쌍으로 이루어 진다.

knowledge base: 사실들의 집합 →

ex. ⟨Angels and Demons, cast member, Tom Hanks; character, Robert Langdon⟩.

text corpus: 일련의 텍스트 문서

table: 정보를 구조화된 형태로 표현한 것

info box: 단일 엔티티에 대한 기록을 하는 특수한 형태의 table

evidence: 위의 것들(ex. text corpus, table, info box)에서 검색할 수 있는 것

Structured representation: 질문의 의도를 명시적으로 나타낸 버전(SR) → q가 intent-explicit 일 때 {문맥 엔티티, 질문 엔티티, 관계, 예상 답변 유형}

[OverView]

오버 뷰!

(i) 현재 정보 요구를 명시적으로 나타낸 구조적 표현(SR)을 생성하고, (ii) 이질적인 소스에서 증거를 검색하며, (iii) 이 큰 규모의 관련 증거 세트를 사용하여 질문에 답하고 설명 증거를 제공

Question Understanding

질문을 받고 문맥에서 전체 의도를 받는 SR을 생성한다.

SR은 seq2seq 모델을 활용해서 만든다. → 이를 통해 질문을 완전히 이해할 수 있는 SR을 만든다. → 현재 질문과 대화의 의도를 파악한다.

SR이 의도와 전혀 다른 것을 생성할 수 있다. 이를 막기 위해서 illusion을 제거하기도 한다. 여러 개 SR 만들어서 상위 SR을 선택한다.

Evidence retrieval

SR를 기반으로 증거를 수집한다.

구조적 표현(SR): 질문을 보다 명확하게 하기 위해 문맥 엔터티, 질문 엔터티, 관계, 예상 답변 유형 네 가지 슬롯으로 나눕니다.

증거 수집: SR을 기반으로 Clocq라는 도구를 사용하여 필요한 정보를 위키피디아 등에서 가져옵니다. 이 정보는 자연어 형태로 변환됩니다.

정확도 향상: Explaignn은 문맥 엔터티와 질문 엔터티에 해당하는 정보만 사용하여 검색 범위를 좁혀 불필요한 정보가 들어오는 것을 막습니다.

[Heterogeneous Answering]

이질적 질문에 대한 답변

Graph Construction

엔티티와 evidence로 구성된 그래프를 만든다.

여러 방법을 사용해서 (KB, infobox…) 증거를 모으고, 그래프를 만든다..

Node Encodings

GNN은 메세지 전달 알고리즘을 활용해서 노드 인코딩을 점진적으로 업데이트 한다.

evidence encoding

entity encoding

SR encoding

→ 초기 인코딩을 설정하고, 업데이트 한다. → 그냥 data를 인코딩한다.. 정도

Message Passing

노드 간의 정보 전달을 하는 과정이다.

이웃하는 메세지에 가중치를 부여하고, 가중치를 사용하여 질문 관련 정보를 퍼뜨린다.

Answer score prediction

밑과 같은 수식을 사용해서 답변 점수를 얻는다.

메세지 전달 과정이 후에 인코딩을 다시 하고, 이를 바탕으로 점수를 얻는다.

Multi-task learning

Graph 모델을 MTL을 이용해서 학습 시킨다.

[Iterative Graph Neural Net]

이제 그래프를 반복적으로 축소 시켜 볼 것이다.

그래프를 축소하는 이유?

→ 전체 그래프를 다 확인하려면 매우 오래 걸린다..

→ 전체 그래프로 일회성 예측을 하면 학습률이 떨어질 수 있다.

→ 매우매우 복잡하다..

GNNs 제안

inferencing

훈련 단계 (Training)

훈련 데이터: 그래프와 정답 쌍을 포함한 데이터가 사용됩니다.
다중 작업 학습: 증거와 답변 점수를 예측하기 위해 다중 작업 학습이 수행됩니다.
훈련된 GNNs: 답변과 증거 점수 예측을 위해 훈련된 GNN이 사용됩니다.

추론 단계 (Inference)

초기화: 첫 번째 GNN이 전체 입력 그래프를 초기화합니다.
가지치기 반복 (Pruning Iterations):

첫 번째 GNN이 그래프에서 가장 관련성 높은 증거들을 선택하여 그래프를 줄입니다.

선택된 증거와 연결된 엔터티들로 그래프를 초기화하고, 다음 GNN에 전달합니다.

이러한 과정이 반복됩니다.

답변 예측 (Answer Prediction):

마지막 반복에서 GNN은 축소된 그래프에서 최종 답변을 예측합니다.

예측된 답변은 αpred로 표시됩니다.

𝛼pred

Enhancing robustnes

그래프를 줄이면 복잡도가 준다.

Facilitating explainability

축소된 그래프는 설명이 용이하게 해준다. 예를 들어 축소된 그래프에서의 다섯 개의 증거로 사용자에게 용이한 설명을 해줄 수 잇다.

Improving efficiency

cross encoding을 통해 효율성을 향상 시킨다.

Instantiation

여러 GNN 모델을 가지고, 훈련을 시켜서 가장 성능이 좋은 모델을 활용한다.

[Results and Insights]

experimental setup

데이터

14000여개 데이터 셋, 3000개의 대화(5, 또는 10 turn으로 구성된)

Metric

정확도를 측정하기 위해 P@1, MRR, Hit@5를 사용한다.

what?

정밀도(P@1): 정밀도(Precision)는 모델이 예측한 정답 중에 실제 정답이 몇 개나 포함되어 있는지를 측정하는 지표입니다. 여기서는 상위 1개의 예측만을 고려하여 정밀도를 측정합니다. 즉, 모델이 상위 예측 중에 정답을 포함한 비율을 나타냅니다.

평균 상호 순위(MRR): MRR은 모델이 예측한 순위의 역수의 평균값을 나타내며, 모델이 정답을 상위 몇 번째로 위치시켰는지를 평가합니다. 예를 들어, MRR이 0.5라면 모델이 평균적으로 정답을 상위 두 번째로 위치시켰음을 의미합니다.

명중률(Hit@5): Hit@5는 모델이 상위 5개 예측 중에 실제 정답을 몇 번이나 포함하고 있는지를 측정합니다. 이는 모델이 상위 몇 개의 예측에서 정답을 포함하고 있는지를 평가하여 모델의 성능을 파악하는 데 도움이 됩니다.

Baseline

Convinse라는 최신 기법과 비교해 본다.

top-𝑘 FiD

이 방식을 이용해서 상위 k개 답변을 뽑는다?

구성 (Configuration)

AdamW 옵티마이저를 사용하였고, 3개의 layer를 쌓았을 때 가장 효과가 좋았다.

이후 가장 높은 답변 존재를 유지하는 GNN을 선택하였다.

Key findings

Explanignn이 가장 강력하다!

더 어려운 테스트에 대해서도 유사한 결과를 보인다.

다양한 정보는 정확도 향상을 보여준다.

In-depths analysis

다중 작업은 학습에 용이하게 한다.

반복은 실행 시간에 영향을 주지 않는다. 성능을 올려준다.

이것은 zero-shot으로도 활용 가능하다.

이 논문에서 사용한 방법들을 쓰지 않았을 때의 성능 하락을 나타낸 표이다.

오류 → 축소하면서 답변이 삭제되는 문제가 있었다. 또는 축소된 그래프에서 올바른 답변이 있지 않은 경우가 있었다 → 이 경우는 2.2, 5.9% 정도 밖에 없었기 때문에 괜찮을 것 같다고 본다.

[User Study on Explainability]

User study design

사용자가 답변이 올바른지 아닌지 결정한다.

User study interface

답변이 맞는 거 같은지, 틀린 거 같은지 고르고, 왜 그런 거 같은지(나쁜 설명 또는 질문/대화가 명확하지 않은 것 등…) 고른다.

quality

퀄리티를 보장하기 위해, 실험 참여자를 제한했다.

결과

[Conclusion]

답변에 추적가능한 증거를 제공한다는 장점이 있다.

#99. Paper Review(3)

[Origin]

[Summary]

[Contents]