반응형 분류 전체보기46 BERT로 감정 분석 실습 해보기 자연어처리 수업 도중 과제가 나와서 LLM으로 감정분석 을 해볼수 있는 기회가 생겼다. 가장 먼저 sentiment analysis란 텍스트 데이터에서 감정 상태를 식별하는 자연어 처리의 중요한 과제이다. 오늘은 BERT를 사용해 감정 분석을 수행하고 그 성능을 검증해 보겠다. 모델의 코드 설명, 성능 지표 분석, 모델 특성 및 성능 비교를 포함한다. BERT 모델을 사용한 감정 분석 데이터 전처리BERT 모델의 경우, 텍스트 데이터를 전처리하여 모델에 적합한 형식으로 변환한다. 전처리 단계는 다음과 같은 이유로 수행된다. l URL 제거: 텍스트 데이터에 포함된 URL은 감정 분석에 불필요한 잡음이 될 수 있으므로 제거l 멘션 제거: 소셜 미디어 텍스트에서 멘션(`@username`)은.. 2024. 6. 20. 챗봇 구현을 위한 데이터로더 기능 테스트 학교 Alpha프로젝트를 위한 많은 AI 기능을 처리하기 위한 자연어처리 인공지능 모델을 만들기 위해Pytorch, Tensorflow, 논문, flask, 각종 모델과 API 스터디를 했다. 스터디 결과 원하는 기능인 기술 스택 추천 기능, 코드 블럭 -> 텍스트기반 코드 변환 기능, Q&A 챗봇 기능을 구현 하려면 엄청난 데이터를 요구하는 대규모 언어 모델인 LLM이 필요하다고 느꼈다. 대규모 LLM 모델을 다루기전에 GPT-2, 3로 파인튜닝 코드를 작성해보면서 감을 잡았다. 가장 첫 번째로 해볼 것은 배포를 위한 Flask 스터디와 구현 방법 탐구이다. OpenAI의 API 토큰을 받아온 뒤 작성한Model2의 코드이다. app.pyimport openaifrom fl.. 2024. 5. 22. Transformer로 간단한 챗봇 구현 및 평가 해보기 챗봇 구현을 위한 전처리 과정과 앞 단계 과정을 끝내고이제 챗봇 구현과 평가를 위한 코드를 작성해보자. 인코더와 디코더의 입력, 그리고 레이블 만들기. tf.data.Dataset을 사용하여 데이터를 배치 단위로 불러올 수 있다.# 텐서플로우 dataset을 이용하여 셔플(shuffle)을 수행하되, 배치 크기로 데이터를 묶는다.# 또한 이 과정에서 교사 강요(teacher forcing)을 사용하기 위해서 디코더의 입력과 실제값 시퀀스를 구성한다.BATCH_SIZE = 64BUFFER_SIZE = 20000# 디코더의 실제값 시퀀스에서는 시작 토큰을 제거해야 한다.dataset = tf.data.Dataset.from_tensor_slices(( { 'inputs': question.. 2024. 5. 2. Transformer 데이터 전처리 해보기 트랜스포머 논문 리뷰와 어텐션 메커니즘을 배운지 얼마 안 된 시점에서, 지금 진행중인 프로젝트와 결이 맞다고 판단하여GPT-4 파인튜닝(미완성)한 챗봇과 트랜스포머 간단 실습과 비교했을 때의 어텐션 스코어 체크를 진행 하려고 한다. 가장 먼저 판다스에서 데이터를 로드해준다. 데이터 로드하기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport reimport urllib.requestimport timeimport tensorflow_datasets as tfdsimport tensorflow as tf 챗봇 데이터를 로드하여 상위 5개의 샘플을 출력해보자.urllib.request.urlretrieve("ht.. 2024. 5. 1. 이전 1 ··· 5 6 7 8 9 10 11 12 다음 반응형