구조 일반화에서 방향성의 역할에 관하여
본 기사는 구조 일반화 작업(예: 수식어 위치 이동)에서 방향성 구분을 더 잘 처리하기 위해 CCG 방향성 유형을 활용하는 AM-Parser의 재설계된 심볼릭 백엔드를 소개합니다.
본 기사는 구조 일반화 작업(예: 수식어 위치 이동)에서 방향성 구분을 더 잘 처리하기 위해 CCG 방향성 유형을 활용하는 AM-Parser의 재설계된 심볼릭 백엔드를 소개합니다.
한 사용자가 DGX Spark를 사전 채우기(prefilling)에, Strix Halo 장치를 토큰 생성에 사용하여 분리형 추론 파이프라인을 구현했으며, 긴 컨텍스트 워크로드에서 상당한 속도 향상을 달성했습니다. 계산 집약적인 프롬프트 처리를 DGX로 오프로드하고 Strix의 메모리 대역폭을 디코딩에 활용함으로써, Strix 단독 실행 시 발생하는 성능 저하를 극복했습니다.
이 기술 보고서는 계층적 탐색 가능 소세계(HNSW) 그래프의 속도와 이론적 정확성 보장을 결합하는 "Certify-then-Rectify" 프레임워크를 소개합니다. 이 방법은 검색 품질을 동적으로 평가하고 필요시 정확한 복원 알고리즘으로 격상하여 최악의 경우 정확성을 보장합니다.
본 논문은 SkillFuzz를 소개합니다. 이는 개별적으로 무해한 스킬이 상호작용하여 에이전트를 의도하지 않은 목표 방향으로 유도할 수 있는 공개 스킬 마켓플레이스에서 암시적 인텐트를 발견하도록 설계된 실행 불필요 테스트 접근법입니다. 이 발견을 스킬 구성에 대한 퍼징 문제로 공식화함으로써, 본 방법은 구조화된 계약을 추출하고 계약 기반 몬테카를로 트리 검색을 사용하여 잠재적으로 충돌하는 조합을 우선순위화합니다.
본 기사는 문학적 학문이 문화적으로 유식한 AI를 구축하는 데 필수적인 도구를 제공하며, 단일 언어 대규모 언어 모델의 한계를 해결한다고 주장합니다.
본 논문은 다국어 쉬운 읽기 번역 공동 과업인 MER-TRANS 2026의 스페인어 트랙에서 HULAT2-UC3M의 참여 세부 사항을 상세히 설명합니다. 팀은 단순화 전략을 평가하기 위해 멀티 에이전트 워크플로우와 선형 베이스라인을 비교하는 세 가지 완전 자동 실행을 제출했습니다.
저자들은 웹에서 수집된 문서를 기반으로 하며 미디어 배경 검사(MBC)의 재현 가능하고 저비용 평가를 가능하게 하기 위해 설계된 공개 지식 저장소인 MEDIAREF를 소개합니다. 이 도구는 최근 정보원 중심 추론 접근 방식에서 고가의 독점 검색 API에 대한 의존성을 해소합니다.
2010년부터 2026년까지 NLP 연구를 분석한 연구에 따르면, 대규모 언어 모델의 발전으로 인해 NLP와 일반 기계 학습 간의 경계가 모호해지면서 학문적 중심이 이동하고 있는 것으로 나타났다.
이 연구는 4개의 최첨단 대규모 언어 모델(GPT, Claude Opus, Gemini, GLM)이 짧은 Linux/bash 명령 응답을 채점할 때 전문가의 판단을 근사할 수 있는지를 평가합니다. 이 연구는 구조화된 프롬프트가 인간 채점자와의 일치도를 크게 향상시켜 컴퓨팅 교육에서 AI 지원 평가의 프레임워크를 확립함을 보여줍니다.
본 기사는 EvoPolicyGym을 소개합니다. 이는 에이전트가 고정된 상호작용 예산 내에서 피드백을 통해 실행 가능한 정책을 반복적으로 개선하는 방식을 평가하기 위해 설계된 벤치마크입니다. 이 통제된 설정은 기존 평가가 종종 과정을 최종 점수로 축소하거나 소프트웨어 엔지니어링의 진전과 혼동한다는 한계를 해결합니다.
본 논문은 NLP를 사용하여 문화적 현상을 정량화하는 것은 장치가 측정하는 현실을 수동적으로 기록하는 것이 아니라 능동적으로 구성하는 물질-담론적 실천이라고 주장한다.
본 연구는 현재의 언어 모델 스케일링 패러다임이 의견 모델링, 행동 시뮬레이션 및 종단적 예측에 걸쳐 사회 시뮬레이션의 충실도 격차를 해소할 수 있는지 조사합니다. 10^18에서 10^20 FLOPs까지의 고정 컴퓨팅 예산으로 DCLM 코퍼스에서 훈련된 85개의 Qwen3 트랜스포머 모델을 사용하여 저자들은 컴퓨팅 스케일과 시뮬레이션 정확도 간의 관계를 분석했습니다.
저자들은 TestEvo-Bench를 소개합니다. 이는 테스트 자동화 에이전트가 코드와 테스트의 공동 진화를 얼마나 잘 처리하는지 평가하기 위해 설계된 실시간 벤치마크입니다. 환경 구성이 포함된 실제 커밋 이력에 기반한 실행 가능한 작업을 제공함으로써 기존 벤치마크의 한계를 해결합니다.
이 연구는 LibriVox 데이터를 분석하여 음성 및 음향 특성이 오디오북 매력에 미치는 영향을 조사합니다. 제목 효과를 고려한 후에도 내레이션 품질과 소비 지표 간에 강력한 연관성을 확립합니다.
저자들은 비전-언어 모델이 사고 체인 추론 중에 시각적으로 기반된 자기 성찰을 수행할 수 있도록 설계된 강화 학습 프레임워크인 VRRL을 제안합니다.
저자들은 CLIP 기반 시각 인코더에서 유형 공격을 완화하기 위한 교육 없는 방법을 제안합니다. 여기서 관련 없는 텍스트는 시각적 표현을 어휘적 의미로 편향시킵니다. 샘플링 기반 해석과 회로 마이닝을 사용하여 이 원치 않는 어휘 정보를 부호화하는 특정 Vision Transformer 구성 요소를 분리합니다.
연구진은 900개 이상의 캐릭터에 걸쳐 532K개의 주석이 달린 대화 라인을 포함하는 대규모 벤치마크인 DramaSR-532K를 소개하고, 장편 TV 드라마에서 화자 인식을 향상시키기 위한 DramaSR-LRM을 제안합니다.
이 연구는 듀얼 채널 토론 프레임워크 내에서 공개 발언과 비공개(OTR) 응답을 비교함으로써 사회적 구조가 LLM 에이전트의 공개적 표현에 미치는 영향을 조사합니다. 이 연구는 정렬 유도 설정이 이러한 채널 간 체계적인 분기를 유발하며, 10개 모델과 여러 시나리오에 걸쳐 의사 결정 분기가 약 3%의 기준선에서 약 40%까지 상승함을 보여줍니다.
본 기사는 배포 중 대규모 언어 모델에서 부안전 출력이 지속되는 문제를 다루고 실시간 모니터링 솔루션을 제안합니다. 외부 모델의 검증자 신호를 임계값 처리를 통해 경고 결정으로 변환하는 간단한 모니터를 소개하며, 임계값은 리스크 제어를 통해 보정됩니다.
본 기사는 자연어 명세서를 컴파일하여 컴팩트하고 로컬에서 실행 가능한 신경 아티팩트로 변환하여 대규모 언어 모델 API를 대체하는 패러다임인 Program-as-Weights (PAW)를 소개합니다. 이 접근 방식은 파운데이션 모델을 입력별 문제 해결자가 아닌 도구 빌더로 취급함으로써 지역성, 재현성 및 비용 개선을 목표로 합니다.