LifeGo: Egocentric XR Lifelogging for a Digital Twin of Experience

1Intelligence and Interaction Research Center, Korea Institute of Science and Technology
2
3AI-Robotics, KIST School, Korea National University of Science and Technology

A lifelogging system that captures daily experiences from a first-person perspective, summarizes multimodal data, and replays them spatially in WebXR.

Abstract

The technology of lifelogging, which aims to record and utilize personal daily experiences and memories, has been applied in various fields such as personalized healthcare and cognitive assistance. To reduce blind spots in recording, fixed devices such as CCTV and infrared cameras are often deployed in multiple locations within a space, but their utilization is limited due to high installation costs, spatial constraints, and the burden of data storage. Similarly, wearable devices in the form of smartwatches and patches for measuring precise biometric signals are limited to distinguishing only simple actions such as walking or running due to a lack of contextual information. To overcome these limitations, this study proposes a user-perspective-centered lifelogging method that leverages web-based extended reality (WebXR) technology and eyeglass-type AR glasses. Multimodal data—including visual, auditory, and spatial information—are collected from the user’s first-person perspective, and an AI-based model processes them in real time to summarize and refine the content, preserving only essential core moments. This approach simultaneously addresses the challenges of data storage burden and privacy concerns. The proposed method provides a technical foundation for spatially recording and replaying memories within the real world, with potential applications in various fields such as memory assistance and cognitive enhancement.

Pipeline

Multimodal capture from egocentric AR glasses

This pipeline captures visual, spatial, and audio data from wearable devices, processes them into an egocentric context using vision, spatial, and audio analysis, and summarizes them into chronological events for easy review of daily activities.

Dataset

Feature Demos

Key Features

Multimodal Understanding

BLIP3o(이미지→텍스트) + Whisper(STT) + YaMNet(환경음) + SpatialLM(공간이해)

Event-centric Storage

요약 JSONL + 대표 프레임만 저장 → 저장량 절감

Spatial Replay

WebXR 타임라인·앵커·경로로 기억을 공간적으로 재생

Live Query

“청소기 돌렸었나?” 같은 질문에 시간대/이벤트 즉시 검색

Lightweight Web Stack

Node.js + Python + WebXR (A-Frame/Three.js)

Spatial Mapping

System Specs

Latency
5.8 ms
이미지 캡션/프레임
Storage
약 20 KB/event
요약 JSONL 기준
Realtime QA
Streaming Mode
실시간 응답 지원
Devices
AR + HMD
AR 글래스 / Quest 3 / Vision Pro

Data & Privacy

📷
Capture — 시각·청각·위치 데이터를 HMD (스마트 글래스) 기반으로 실시간 수집
🧠
Summarize — 임베딩 기반 유사도 분석으로 연속 기록을 의미 단위 이벤트로 요약
🏷️
Tag — 각 이벤트에 대해 활동·장소·객체 메타데이터 자동 태깅
🗂️
Store — JSONL + 대표 프레임 구조로 저장(🔒이미지 원본 저장은 선택적)
{
        "time_range": "2025-08-12T12:02:10~12:07:45",
        "summary": "The user appears to be doing a cleaning operation on the TV and near the TV cabinet, as shown by the vacuum cleaner and pet food bowl on the wooden floor. The user's hand is holding the vacuum cleaner, suggesting that it is preparing to use it or has just finished using it. Body posture refers to a tilted forward position in which someone seems to be actively cleaning. The surroundings include a well-lit indoor space with glossy wood floors, a pet food bowl, and some of the furniture that you can see in the corner. The background noise is making a vacuum cleaner sound. Human voices are not heard. \n\nRelated Activity Tags: ['using vaccum cleaner','cleaning']",
        "사용자가 TV와 TV 캐비넷 근처에서 청소 활동을 하고 있는 것으로 보이며, 이는 나무 바닥에 진공청소기와 애완동물 사료 그릇이 있는 것에서 알 수 있습니다. 사용자의 손이 진공청소기를 잡고 있어 사용을 준비 중이거나 방금 사용을 마쳤음을 시사합니다. 신체 자세는 누군가 적극적으로 청소하는 것처럼 보이는 앞으로 기울어진 자세를 나타냅니다. 주변 환경에는 광택이 나는 나무 바닥이 있는 조명이 잘 켜진 실내 공간, 애완동물 사료 그릇, 구석에 보이는 가구 일부가 포함되어 있습니다. 배경 소음은 청소기 소리가 나고 있습니다. 사람의 음성은 들리지 않습니다. \n\n관련 활동 태그: ['청소', '청소기 사용']",
        "tags": ["cleaning","using vacum cleaner","tv cabinet"],
        "image": "images/20250812_120510.jpg"
      }

Query Examples

💬 “어제 청소를 했었나?”

🤖 네, 어제 9시 13분부터 38분까지 총 25분동안 주로 거실과 주방을 진공청소기를 사용하여 청소하셨습니다.

timeline result 요약에서 해당 시간대 이벤트만 집계

💬 “저번 달에 자주 먹었던 음식이 뭐야?”

🤖 저번 달에는 한식을 15번, 일식을 9번, 중식을 3번 드셨습니다. 주로 김치와 구운 고기가 포함된 한국식 가정식을 자주 즐기셨습니다.

vacuum result

💬 “그저께 게임 얼마나 했어?”

🤖 그저께 14시 10분부터 18시 33분까지 총 4시간 23분 동안 컴퓨터로 리그 오브 레전드(MOBA) 게임을 하셨습니다.

cooking result

💬 “오늘 집에서 어떤 활동을 가장 오래 했어?”

🤖 주방에서 요리 및 설거지: 42분, 거실 쇼파에서 TV 시청: 3시간 05분, 컴퓨터 앞에서 업무: 2시간 13분으로 가장 긴 시간동안 하신 활동은 TV를 시청한 것이었습니다.

kimchi result
인터랙티브 라이프로깅 시스템 아키텍처

XR 라이프로깅 시스템

데이터의 수집부터 검색까지, 전 과정을 인터랙티브하게 탐색해보세요.

시스템 전체 구조

이 시스템은 4개의 주요 계층으로 구성되어 있습니다. 각 계층은 XR 글래스를 통해 수집된 사용자의 일상 데이터를 처리, 저장하고 의미있는 정보로 변환하여 제공하는 역할을 합니다. 아래 다이어그램의 각 계층을 클릭하면 해당 섹션으로 이동하여 더 자세한 내용을 확인할 수 있습니다.

1. 데이터 수집 계층

모든 라이프로그는 XR 글래스에 내장된 센서로부터 시작됩니다. 이 센서들은 사용자의 주변 환경과 행동에 대한 원시 데이터를 실시간으로 수집하여 다음 계층으로 전송합니다. 각 센서 카드에 마우스를 올려 어떤 데이터가 수집되는지 확인해보세요.

📷

카메라

패스스루 영상을 통해 사용자가 보는 장면을 기록합니다. (공간 및 객체 인식의 기반)

🏃‍♂️

IMU

관성 측정 장치로, 사용자의 머리 움직임과 이동 경로를 추적합니다. (이동 문맥 파악)

🎤

마이크

사용자의 발화와 주변 소리를 녹음합니다. (대화 및 청각 문맥 파악)

2. 원시/통합 로그 생성 계층

수집된 각기 다른 형태의 원시 데이터(영상, 움직임, 소리)는 '멀티모달 상황 인지 모듈'에서 종합적으로 분석됩니다. 각 데이터는 독립적으로 처리되어 문맥 정보로 변환된 후, 멀티모달 LLM을 통해 하나의 통합된 텍스트 로그로 생성됩니다. 아래 버튼을 클릭하여 시뮬레이션 과정을 확인해보세요.

영상 🖼️

거실 소파와 TV가 보임

IMU 🧭

소파 근처에서 약간의 움직임 감지

음성 🗣️

주변 소리: 키보드 타이핑

결과: 통합 멀티모달 라이프로그 (10초)

[2025-10-15 02:21:10] 거실 소파 근처에 앉아 TV를 보면서 키보드를 치고 있는 것으로 보임.

3. 데이터 저장 및 압축 계층

10초마다 생성되는 방대한 라이프로그는 비효율적입니다. '의미 기반 데이터 압축 모듈'은 연속된 로그들의 내용(의미)이 얼마나 유사한지를 계산하여, 비슷한 활동들을 하나의 '이벤트'로 자동 그룹화합니다. 아래 슬라이더를 조절하여 '유사도 임계값'을 변경하고, 로그들이 어떻게 이벤트로 묶이는지 확인해보세요.

10개의 로그가 3개의 이벤트로 그룹화되었습니다.

Poster

BibTeX

@inproceedings{kim2025lifego,
  title={LifeGo: Egocentric XR Lifelogging for a Digital Twin of Experience},
  author={Kim, Sehoon and Na, Kunyeol and Yoo, Byounghyun},
  booktitle={Proceedings of ...},
  year={2025}
}