DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델

DeepSeek-R1: 강화학습으로 스스로 진화하는 추론 특화 언어모델 DeepSeek-R1은 순수 강화학습(RL)과 소량의 Cold-start 데이터를 결합한 다단계 학습 파이프라인을 통해, OpenAI o1 시리즈에 필적하는 수준의 추론 능력을 달성한 오픈소스 언어모델입니다. 671억 파라미터 규모의 MoE 아키텍처를 쓰고, 약 560만 달러 규모의 학습 비용을 들였다고 알려졌으며, 추론 성능과 가독성, 인간 선호와의 정렬(alignment)을 모두 고려한 점이 특징입니다. 모델 구조 및 … Read more

TensorFlow Extended(TFX): 프로덕션 레벨의 E2E 기계학습 파이프라인 플랫폼

TensorFlow Extended(TFX): 프로덕션 레벨의 E2E 기계학습 파이프라인 플랫폼

TensorFlow Extended(TFX): 프로덕션 레벨의 E2E 기계학습 파이프라인 플랫폼 TensorFlow Extended(TFX)는 구글에서 자체 머신러닝 제품을 안정적으로 운영하기 위해 개발한 프로덕션 레벨의 End-to-End 기계학습 파이프라인 플랫폼입니다. 학습 데이터 수집부터 모델 배포, 모니터링, 재학습까지 머신러닝 워크플로우 전 과정을 자동화하고 표준화하여, 엔터프라이즈 환경에서도 안정적인 서비스 제공을 목표로 합니다. TFX란 무엇인가? 기본 개념 주요 목표 TFX 아키텍처 구성 요소 파이프라인 … Read more

AutoML-Zero: ‘zero’에서부터 스스로 진화하는 기계학습 알고리즘

AutoML-Zero: ‘zero’에서부터 스스로 진화하는 기계학습 알고리즘

AutoML-Zero: ‘zero’에서부터 스스로 진화하는 기계학습 알고리즘 기계학습 알고리즘 설계의 혁신, AutoML-Zero 단 몇 줄의 코드도 없이, 오직 기본적인 수학 연산만을 블록으로 조합해 완전 자율적으로 기계학습 알고리즘을 ‘발견’한다니, 이는 마치 AI가 스스로 대학원 논문을 작성하는 것과 같습니다. AutoML-Zero는 사람의 개입을 최소화하고, 기본 연산(덧셈·곱셈·활성화 함수 등)만을 조합해 새로운 학습 루틴을 진화(Evolution Search) 방식으로 찾아냅니다. AutoML-Zero 개요 및 … Read more

TensorFlow Lite: 모바일 & IoT 디바이스를 위한 딥러닝 프레임워크

TensorFlow Lite: 모바일 & IoT 디바이스를 위한 딥러닝 프레임워크

TensorFlow Lite: 모바일 & IoT 디바이스를 위한 딥러닝 프레임워크 엣지 인텔리전스를 향한 경량화된 딥러닝 TensorFlow Lite(TFLite)는 구글이 개발한 TensorFlow 모델을 모바일, 임베디드, IoT 환경에서 직접 실행할 수 있도록 최적화한 오픈소스 프레임워크입니다. 기존의 TensorFlow 모델은 서버나 클라우드에 의존해 무거운 연산을 처리했지만, TFLite는 낮은 레이턴시와 작은 바이너리 크기를 강점으로 온디바이스 추론(on-device inference)을 가능하게 합니다. 네트워크 연결이 불안정하거나 … Read more

Graph Convolutional Networks(GCN) 개념 정리

Graph Convolutional Networks(GCN) 개념 정리

Graph Convolutional Networks(GCN) 개념 정리 최근 비정형 데이터의 대표격인 그래프(graph)를 처리하기 위한 딥러닝 기법으로 Graph Convolutional Networks(GCN)가 주목받고 있습니다. GCN은 그래프 구조에서 각 노드(node)가 이웃 노드와 정보를 주고받으며, 전체 그래프의 구조와 특성을 동시에 학습할 수 있도록 설계된 모델입니다. 전통적인 합성곱 신경망(CNN)이 격자(grid) 형태의 이미지에 특화된 반면, GCN은 비정형적이고 불규칙한 그래프 구조를 직접 다루어 소셜 네트워크, … Read more

Graph Neural Networks(그래프 뉴럴 네트워크) 기초 개념 정리

Graph Neural Networks(그래프 뉴럴 네트워크) 기초 개념 정리

Graph Neural Networks(그래프 뉴럴 네트워크) 기초 개념 정리 딥러닝은 이미지·음성·텍스트와 같은 격자(grid) 형태 데이터에서 뛰어난 성능을 보였습니다. 그러나 소셜 네트워크, 추천 시스템, 지식 그래프처럼 비정형적이고 복잡한 그래프 구조 데이터에 대해서는 전통적인 신경망이 한계가 있었습니다. 그래프 뉴럴 네트워크(GNN, Graph Neural Networks)는 이러한 그래프 데이터를 직접 다루며, 노드 간 상관성을 모델링하여 높은 표현력을 제공합니다. 본 글에서는 GNN의 … Read more

설명 가능한 인공지능(XAI): 투명성과 신뢰를 향한 혁신적 도전

설명 가능한 인공지능(XAI): 투명성과 신뢰를 향한 혁신적 도전

설명 가능한 인공지능(XAI): 투명성과 신뢰를 향한 혁신적 도전 21세기 들어 인공지능(AI)은 전 세계 산업과 일상생활 전반에 걸쳐 혁신을 불러일으키고 있습니다. 자율주행차, 지능형 RPA, 헬스케어, 공정 자동화, 마케팅 등 다양한 분야에서 AI 기술이 활용되면서 생산성이 크게 향상되고, 우리의 업무 방식과 생활 패턴에도 급격한 변화가 나타나고 있습니다. 그런데 이러한 AI의 활용이 늘어남에 따라 ‘설명 가능성(Explainability)’에 대한 요구도 … Read more

페이스북 HiPlot: 딥러닝 하이퍼파라메터 탐색을 위한 혁신적인 고차원 시각화 도구

페이스북 HiPlot: 딥러닝 하이퍼파라메터 탐색을 위한 혁신적인 고차원 시각화 도구

페이스북 HiPlot: 딥러닝 하이퍼파라메터 탐색을 위한 혁신적인 고차원 시각화 도구 딥러닝 모델을 개발하는 과정에서 하이퍼파라메터 튜닝은 필수적입니다. 하지만 수많은 변수와 복잡한 상관관계를 한눈에 파악하기란 결코 쉽지 않습니다. 이번 글에서는 페이스북에서 공개한 오픈소스 고차원 시각화 툴, HiPlot에 대해 소개해드리고자 합니다. HiPlot은 딥러닝 모델의 하이퍼파라메터 탐색을 돕는 강력한 도구로서, 평행 좌표 플롯(parallel coordinate plot)과 같은 다양한 시각화 … Read more

자연어 생성에서의 Beam Search와 파이썬 구현

자연어 생성에서의 Beam Search와 파이썬 구현

자연어 생성에서의 Beam Search와 파이썬 구현 자연어 생성(Natural Language Generation) 모델은 주어진 입력에 따라 문장이나 단락과 같은 텍스트 시퀀스를 생성하는 데 사용됩니다. 이러한 모델들은 각 디코딩 타임스텝에서 전체 단어 사전에 대한 확률 분포를 예측하는데, 이 확률 분포만을 그대로 사용할 경우 생성 결과가 다양하거나 비논리적인 경우가 발생할 수 있습니다. Beam Search는 이러한 문제를 완화하고, 더 높은 … Read more

BM25와 ElasticSearch 랭킹 알고리즘을 활용한 IR 검색 구현 가이드

자연어 생성에서의 Beam Search와 파이썬 구현

BM25와 ElasticSearch 랭킹 알고리즘을 활용한 IR 검색 구현 가이드 정보 검색(IR, Information Retrieval) 분야에서 사용자 쿼리와 문서들 간의 관련성을 평가하는 것은 매우 핵심적인 요소입니다. 그 중에서도 BM25(Okapi BM25)는 키워드 기반의 랭킹 알고리즘으로, TF-IDF 계열의 검색 알고리즘 중 현재까지도 높은 성능과 SOTA(State-Of-The-Art)의 평가를 받고 있습니다. 실제 IR 서비스를 제공하는 대표적인 시스템 중 하나인 ElasticSearch에서도 BM25를 기본 … Read more