AI가 개발하는 맞춤형 관리 체계

AI 이슈: 마이크로소프트 자체 AI 모델 프리뷰

마이크로소프트 자체 AI 모델 MAI의 등장
사용자가 MAI-Voice-1과 MAI-1-preview 모델을 소개하는 화면을 바라보며 노트북에서 작업하고 있는 모습 — *원문 사진 인용, 이미지 출처: GPT-5*

마이크로소프트 AI가 음성으로 감정을 표현하는 시스템인 MAI-Voice-1과 15,000개의 GPU로 학습한 거대한 모델인 MAI-1-preview를 공개했습니다.

코파일럿에서 감정 있는 음성을 위한 MAI-Voice-1과 똑똑한 텍스트 처리를 위한 MAI-1-preview가 처음으로 선보여지고 있어요.

마이크로소프트 AI의 새로운 자체 제작 모델

마이크로소프트 AI(MAI)가 두 가지 자체 제작 모델을 내놨어요.
자연스러운 음성 만들기를 위한 MAI-Voice-1과 첫 번째로 자체 개발한 기본 모델인 MAI-1-preview입니다.
MAI-Voice-1은 단일 GPU로 1초 안에 1분짜리 오디오를 만드는 놀라운 속도로 고음질의 감정 표현이 풍부한 오디오를 제공해요.
이 음성 모델은 이미 코파일럿 데일리와 팟캐스트에서 사용되고 있고, 코파일럿 랩에서 테스트해볼 수 있습니다.
전문가들이 합쳐진 기본 모델인 MAI-1-preview는 약 15,000대의 NVIDIA H100 GPU로 학습했고, 지금 LMArena에서 공개 테스트를 진행하고 있어요.
이 기본 모델은 믿을 만한 테스터들을 위한 API 접근과 함께 코파일럿 텍스트 기능에 단계적으로 출시될 예정입니다.

마이크로소프트 AI의 목표: 모두를 위한 AI

마이크로소프트 AI(MAI)는 모든 개인과 조직이 능력을 발휘할 수 있도록 돕는 AI를 만드는 것을 목표로 하고 있어요.

마이크로소프트는 AI를 도움이 되고 신뢰할 수 있는 동반자, 즉 지식의 문이자 사람들의 특별한 요구에 맞춰 조정되는 다양한 기능으로 생각하고 있습니다.

이런 꿈을 실현하기 위해 MAI는 세계 최고 수준의 팀과 시설을 통해 목적에 맞는 모델을 만들어 왔어요.

이번 주에는 그 목표를 앞당기기 위해 만든 두 가지 자체 제작 시스템의 첫 번째 미리보기가 공개됩니다.

MAI-Voice-1: 감정 표현이 풍부한 고속 음성 생성

첫 번째로 나온 것은 한 명이나 여러 명이 말하는 상황에서 자연스럽고 감정 표현이 풍부한 고음질 오디오를 만들도록 설계된 음성 생성 모델인 MAI-Voice-1입니다.

성능: MAI-Voice-1은 단일 GPU로 1초 안에 1분짜리 오디오를 만들 수 있어서 현재 가장 효율적인 음성 시스템 중 하나예요.

활용: 이미 코파일럿 데일리와 팟캐스트에 적용되어 이 기능들에 더욱 자연스러운 오디오를 제공하고 있어요.

체험: 이 모델은 사용자가 간단한 입력으로 만든 스토리텔링이나 안내 명상 같은 데모를 테스트해볼 수 있는 코파일럿 랩에서도 사용할 수 있습니다.

MAI-Voice-1은 음성을 더 빠르고 감정 표현이 풍부하게 만들어서 음성이 미래 AI 동반자를 위한 주요 연결 방식이 되도록 합니다.

MAI-1-프리뷰: 15,000개의 GPU로 학습한 기본 모델

두 번째 중요한 성과는 자체적으로 처음부터 끝까지 학습한 첫 번째 기본 모델인 MAI-1-프리뷰예요.

이 모델은 전문가 조합 구조를 따르고 있으며, 약 15,000개의 NVIDIA H100 GPU에서 사전 학습과 사후 학습을 거쳤습니다.

평가: 이 모델은 모델 평가를 위한 커뮤니티 플랫폼인 LMArena에서 공개 테스트를 진행하고 있어요.

사용 용도: 지시를 따르고 유용한 일상적인 답변을 처리하도록 만들어졌고, 앞으로 몇 주에 걸쳐 일부 코파일럿 텍스트 기능에 적용될 예정이에요.

접근: LMArena 외에도 믿을 만한 테스터가 API 접근을 통해 모델을 사용할 수 있어서 마이크로소프트 AI가 목표한 피드백을 모을 수 있어요.

여기에서 접근을 신청할 수 있습니다.

이는 개선된 자체 제작 기본 모델을 제공하면서 동시에 파트너 모델과 오픈 소스의 새로운 접근 방식을 활용해 제품 전반에서 최고의 결과를 보장하려는 MAI 전략의 시작을 뜻합니다.

앞으로의 계획: 다양한 용도를 위한 전문 모델

마이크로소프트 AI는 이 두 가지 모델이 더 큰 전략의 첫 단계일 뿐이라고 강조하고 있어요.

마이크로소프트는 기본 시스템 외에도 특정 사용자의 의도와 상황에 맞게 조정된 다양한 전문 모델을 만들 계획입니다.

이런 접근 방식은 고객에게 더 큰 가치를 제공하도록 설계되었고, 코파일럿과 다른 마이크로소프트 제품이 매일 도와주는 수백만 가지의 다양한 상호작용에 적응할 수 있도록 보장해요.

Q&A

질문: 마이크로소프트 AI는 어떤 모델을 출시했나요?

답변: 마이크로소프트 AI(MAI)는 감정 표현이 가능한 음성 생성 모델인 MAI-Voice-1과 첫 번째 기본 모델인 MAI-1-preview를 발표했어요.

질문: MAI-Voice-1의 특징은 무엇인가요?

답변: MAI-Voice-1은 놀라운 속도로 자연스러운 고음질 오디오를 만들어서 단일 GPU로 1초 안에 1분짜리 음성을 생성합니다.

질문: MAI-Voice-1은 어디에서 사용할 수 있나요?

답변: 이미 코파일럿 데일리와 팟캐스트에 탑재되어 있고, 스토리텔링과 명상 안내 데모를 보여주는 코파일럿 랩을 통해 테스트해볼 수 있어요.

질문: MAI-1-프리뷰는 어떻게 학습했나요?

답변: MAI-1-preview는 약 15,000개의 NVIDIA H100 GPU로 학습한 전문가 조합형 기본 모델로, 지시를 따르고 유용한 답변을 제공하도록 설계되었어요.

질문: 개발자는 어떻게 MAI-1-preview를 테스트할 수 있나요?

답변: 공개 평가를 위해 LMArena에 공개되어 있고, 믿을 만한 사용자를 위한 API 테스트를 통해 추가 접근이 가능해요.

시사점

MAI-Voice-1과 MAI-1 프리뷰를 내놓은 것은 파트너십과 오픈 소스의 새로운 접근 방식을 활용하면서 자체 핵심 모델을 만들려는 마이크로소프트 AI의 노력을 보여줘요.

많은 관찰자들은 마이크로소프트가 미래를 위한 자체 대규모 시스템 개발에 투자하면서 OpenAI 제품으로부터 더 큰 독립성을 향한 걸음을 내딛는 것으로 보고 있습니다.

사용자 입장에서는 음성을 통해 더욱 감정 표현이 풍부하고 사람과 비슷한 상호작용을 할 수 있고, 코파일럿에서 텍스트 기반 사용을 위한 더욱 유능하고 빠른 반응을 하는 모델을 사용할 수 있게 돼요.

업계에서는 다양한 사용자 요구를 맞추기 위해 범용 기본 모델과 전문 시스템을 결합하는 마이크로소프트의 전략을 보여줍니다.

무엇보다도 마이크로소프트 AI는 음성이 AI 동반자를 위한 핵심 연결 방식이 되고, 기본 모델이 믿을 수 있는 실용 AI의 중심이 되는 장기적인 목표를 향해 나아가고 있어요.

이런 초기 자체 제작 출시는 일상 생활에 안정적이고 독립적인 AI를 제공하기 위해 설계된 더 큰 포트폴리오의 시작을 알립니다.

임패커스 블로그 | 애플 제미니 시리 통합 이슈 더 보러가기

출처: Alicia Shapiro, AiNews, "Microsoft AI Introduces MAI-Voice-1 and MAI-1-Preview Foundation Model", https://www.ainews.com/p/microsoft-ai-introduces-mai-voice-1-and-mai-1-preview-foundation-model, (2025-08-29)