AI 번역·NLP 연구일지

연구일지, 함께 참여해 주세요.

누군가에게는 우리의 경험이 도움이 되고, 또 누군가는 우리의 경험에 도움이 되어 주기를 희망합니다.
지식의 개방과 공유는 우리의 변함없는 철학입니다.

총 46개의 연구일지

법률 분야 특화 LLM 번역모델 개발과정 - PART 3

by. SSG

* 법률 도메인 번역에서 용어 일관성 강화를 위해 dict-instruction, dict-chain, dict-rephrasing 세 가지 용어집 적용 방식을 실험
* SFT 학습만으로 BLEU/COMET 점수는 크게 향상되었으나 용어 일관성은 한계가 있었고, 프롬프트 기반 용어집 적용 시 용어 적용률이 90~99%까지 개선됨
* SFT 이후 dict-chain 방식의 추가 학습이 BLEU·COMET과 용어 일관성을 동시에 확보하는 가장 효과적인 전략으로 확인됨

2025-09-24

0댓글 0조회수 204

SOTA 모델의 번역 성능 테스트 및 토크나이저 분석

by. SSG

* 최신 오픈소스 모델 14종의 한국어 번역 성능을 BLEU, COMET, 추론 시간 등 다양한 지표로 비교 분석
* 전반적으로 토크나이저에서 한국어 토큰 비율이 높을수록 BLEU 점수가 개선되는 경향을 확인할 수 있음
* 다국어 모델 중 Qwen3 계열의 모델이 추론 시간, 번역 성능 등에서 상당히 좋은 성능을 보였으며, Exaone-4.0-32B 모델은 가장 좋은 번역 성능을 보임

2025-08-20

1댓글 0조회수 172

법률 분야 특화 LLM 번역모델 개발 과정 - PART 2

by. SSG

* 대형 LLM 번역 모델의 성능을 높이기 위해, 단일언어 대규모 데이터로 사전학습 후, 고품질 병렬 데이터로 추가 미세조정하는 방식을 실험
* 법률 도메인 데이터를 활용해 Qwen3-8B 등 모델을 학습한 결과, 기존 30B 대형 모델보다도 성능(BLEU, COMET 등)이 크게 향상됨을 확인
* 용어 일관성 등 추가 개선 필요하지만, 학습 방법의 변화가 파라미터 수보다 성능에 더 큰 영향을 미침을 실증적으로 보임.

2025-08-01

0댓글 0조회수 167

법률 분야 특화 LLM 번역모델 개발 - PART 1

by. SSG

* 오픈소스 LLM과 자체 법률 번역 데이터를 활용하여, 법률 도메인 특화 영-한 번역 모델을 개발
* 자사에서 구축한 영-한 법률 문서 병렬 데이터와 QLoRA 기법을 활용해 Qwen3 모델을 법률 번역에 맞게 파인튜닝
* 번역 품질 향상을 위해 프롬프트를 다양화하고, 어댑터 적용 대상을 확장하는 등 실험적 접근을 시도

2025-07-18

0댓글 0조회수 147

주요 STT API 성능 및 비용 비교분석

by. SSG

* 여러 상용 STT API(AssemblyAI, AWS, Gladia 등)를 동일 데이터셋(한국어/영어/일본어)에서 직접 비교 실험
* AssemblyAI, AWS Transcribe, Gladia, Google, Azure 등 주요 STT API의 지원 언어, 요금, 화자 분리, 부가 기능 등 주요 스펙과 특징 정리
* WER(정확도), 처리시간 등 성능 지표를 통해 엔진별 강점과 약점을 도출하고, 언어/비용/실시간성 등 목적에 따라 적합한 엔진을 제안

2025-07-15

0댓글 0조회수 186

문맥 반영 수준에 따른 번역 품질 비교

by. SSG

* 문서 전체 번역 시, 문맥의 반영 수준에 따라 번역 품질의 개선 효과가 발생하는지 확인하기 위한 비교 실험 진행
* 번역 품질을 측정하기 위해 전통적인 척도, LLM 기반 척도 등 정량적 척도를 선정하여 비교 실험
* 향후 번역 성능 개선을 위한 접근 방법 모색

2025-01-14

0댓글 0조회수 183

반복 작업 성능 향상을 위한 동시성 및 병렬 처리 기법 비교 연구

by. KKW

* 반복 작업을 시행해야 할 데이터의 row 수가 증가할수록 작업시간도 정비례로 증가
* 사용자가 이용할 서비스의 성능 향상을 위해 반복 작업의 속도 개선
* 자사 서비스의 기능에 대해 반복문, 멀티 프로세싱, 멀티 쓰레딩 비교 분석

2025-01-14

0댓글 0조회수 211

파이썬에서 엑셀 파일 xml로 직접 파싱 후 편집하기

by. KTS

* 단순히 xlsx의 데이터에서 text를 추출하는 것이 아니라, 서식을 유지하면서 편집된 내용을 통해 직접 xlsx 파일을 수정하기 위해서는 xml 레벨에서의 접근이 필요함
* 파이썬에서 xlsx의 xml을 직접 편집하고 수정하는 내용을 정리
* 이러한 방법을 통해 원본 xlsx 파일의 서식이 재현된 문서 번역 기능 구현

2023-11-30

0댓글 0조회수 469

OpenAI GPT 결과 형태 구조에 관한 연구

by. JKI

* 현재 자사의 서비스의 내부 프로세스에서 OpenAI의 GPT를 활용한 자동화 기능이 많이 사용되고 있음
* 일관된 결과 형태를 위하여 응답 형태 지정, one-shot, few-shot 프로프팅을 사용하고 있으나 일부 결과 형태가 올바르게 출력되지 않아 에러가 반환되는 경우가 다수 존재함
* 2023년 11월 06일에 개최된 OpenAI의 개발자 컨퍼런스의 내용에 json mode를 지원하여 일관된 json 구조의 응답을 얻을 수 있으며 이를 통해 위와 같이 발생하는 이슈들을 해결할 수 있음

2023-11-30

0댓글 0조회수 267

DeepRead2.0 논문 분석 서비스 및 대화형 챗봇에 대한 연구

by. JKI

* 기존에 개발한 챗봇을 기반으로 시스템이 확장 가능하고 챗봇 성능을 개선할 수 있도록 고도화 되어야 함
* 챗봇 뿐만 아니라 DeepRead2.0의 메인 기능인 논문을 분석할 수 있는 기능을 추가할 필요가 있음
* OpenAI 서비스 업데이트에 따른 GPT 관련 파트의 전반적인 개선이 필요함

2023-11-30

0댓글 0조회수 239

...