3 월 13 일, 카자흐스탄 대통령 카임스 조모 마트 토 카이프 만났다 ~와 함께 토마스 프라모 테드 햄, 인공 지능 회사 인 Presight AI의 CEO는이 나라의 슈퍼 컴퓨터 클러스터에 대한 계획에 대해 논의했습니다. 이 프로젝트는 인공 지능의 지역 리더로 자리 매김하기 위해 정부의 많은 이니셔티브의 일부입니다.
Astana는 단순히 경제 성장이 아니라 기술에 희망을두고 있습니다. 언어 보존에 중요한 것으로 여겨지는 강력한 국내 AI 산업과 함께 추진에 대한 문화적 측면도 있습니다.
그러나 최근에 지연 SuperComputer Project에 따르면, 최고의 계획조차도 지정 학적 세력에 희생 될 수 있습니다. Kazakhstan은 AI에서 큰 게임을 할 수 있지만 전달할 수 있습니까?
이야기를 통제합니다
대형 언어 모델 또는 LLM은 ChatGpt와 같은 AI 프로그램의 기초입니다.이 프로그램은 인간 언어를 처리, 이해 및 생성합니다. 이 모델은 영어, 만다린 및 스페인어와 같은 소수의 지배적 인 언어로 압도적으로 훈련되며 Kazakh와 같은 작은 언어는 종종 간과됩니다.
아부 다비의 MBZUAI (Mohamed Bin Zayed University of Artificial Intelligence University)의 부서장 겸 자연 언어 처리 교수 인 Preslav Nakov는“더 큰 LLM이 추가 언어를 추가하고 있지만 이러한 언어는 반드시 똑같이 지원되는 것은 아닙니다. “LLM은 신경망을 사용하고 용량이 제한되어 있습니다. 개발자는 필연적으로 더 많은 언어를 지원하기 위해 해당 용량을 사용하거나 추론 기능과 같은 다른 영역에서 개선하기 위해 투자하고 싶은지 스스로에게 묻습니다.”
AI 중심 언어 처리 솔루션을 전문으로하는 회사 인 Omniscience의 CTO 인 Dion Wiggins는 소규모 언어에 주어진 2 차적 중요성은 서구 세계 관점을 촉진하는 AI 모델로 이어진다 고 말했다. “Grok, Llama 또는 Chatgpt에 가면 모두 같은 데이터에서 배우기 때문에 다소 동일합니다.”
그러나 카자흐스탄과 같은 국가가 자체 LLM을 생산할 수 있다면 이야기를 더 많이 통제 할 수 있습니다.
Wiggins는“주권 LLM이 있다면 카자흐의 도덕, 카자흐 역사, 카자흐 렌즈 및 세계 의이 지역의 관점이 있습니다. 그는 Tiananmen Square 학살에 대한 정보에 대한 접근을 제한하는 중국의 Deepseek과 “미국 대통령은 누구입니까?”와 같은 간단한 질문에 대답하는 것을 거부하는 Google의 Gemini를 인용합니다. 우리가 이미 AI가 검열에 사용되는 것을 보는 방법의 예로서.
당신의 언어를 염두에 두십시오
LLM은 효과적이되도록 훈련하려면 막대한 양의 데이터가 필요합니다.
Wiggins는“그리고 문제가 있습니다. “Kazakh 데이터는 많지 않습니다.”
AI 교육을위한 가장 큰 데이터 소스 중 하나는 일반적인 크롤링온라인 정보를 보관하고 대중에게 자유롭게 제공하는 비영리 단체. 통계는 거대한 언어 적 편견을 보여줍니다. 일반 크롤링 웹 페이지의 43.4 %가 영어로되어 있습니다. 실제로 모든 웹 기반 데이터의 70 % 이상이 영어, 러시아어, 독일어, 일본어, 중국어, 스페인어 및 프랑스어의 7 가지 주요 언어입니다.
Kazakh는 0.0298 %. 다시 말해, 10,000 개의 웹 페이지를 무작위로 스크롤하면 3 명이 카자흐에있을 것입니다. 605 러시아어, 4,337 개의 영어.
검색 엔진은 영어 콘텐츠의 우선 순위를 정하고, AI 기반 어시스턴트가 영어 이외의 쿼리로 어려움을 겪고, 자동 번역 서비스가 많은 언어에서 신뢰할 수없는 상태로 남아 있습니다.
바르셀로나에있는 Esade Business & Law School의 AI의 카자 크로 태어난 박사 후보 인 Aisana Kassenova는“카자흐스탄 에서이 문제는 러시아에 대한 의존으로 인한 역사적으로 본질적인 문제로 인해 더욱 복잡해집니다. “Google 번역과 같은 많은 번역 도구는 Kazakh를 번역 할 때 여전히 러시아어를 중개자로 사용하므로 종종 부정확합니다.”
Astana는 러시아어보다 카자흐어를 홍보하려는 오랜 정책을 가지고 있습니다. 도시 엘리트의 언어 나라에서. 많은 사람들은 여전히 여전히 주장 할 것입니다. 러시아어는 디지털 공간에서 카자흐를 가로 지르는 엄청난 헤드 스타트를 가지고 있으며, 이는 AI와의 상호 작용의 대부분이 러시아어에서 수행된다는 것을 의미합니다.
Kassenova는“이것은 카자흐어 언어 데이터 세트가 부족하여 러시아가 카자흐스탄의 기술과 AI 개발을위한 더 실용적인 언어로 남아 있다는 인식을 강화합니다.
집 재배 LLM
따라서 카자흐스탄의 첫 번째 큰 언어 모델에 대한 검색이 시작되었습니다. 2024 년 12 월, 나자 바야프 대학교의 스마트 시스템 및 인공 지능 연구소 (ISSAI)가 Kazllm을 공개했을 때이 나라는 금을 쳤다. Kazakh, 러시아어, 영어 및 터키어로 텍스트를 처리하고 생성하도록 설계된 Kazllm은 뉴스 매체, 정부 웹 사이트 및 오픈 액세스 자료와 같은 소스에서 수집 한 방대한 데이터 세트를 사용하여 개발되었습니다. 모델의 성능조차도 칭찬을 그렸습니다 AI의 책임자 인 Yan Lecun에서 US Tech Giant Meta의 연구 책임자.
2025 년 2 월에 아부 다비의 MBZUAI에서 공동 작업으로 개발 된 또 다른 Kazakh 언어 AI 모델 인 Sherkala가 이어졌습니다.
이 프로젝트의 지도자 인 나코프 교수는 외교관에게 Sherkala가 각각 아랍어와 힌디어에 중점을 둔 Jais (2023)와 Nanda (2024)의 발자취를 따르고 있다고 말했다.
“Sherkala는 이미 다국적 지원이 포함되어 있지만 Kazakh와 같은 언어에 대한 정확성과 문화적 인식 수준을 제공하기에는 충분하지 않은 Meta의 널리 채택 된 Open-Source AI 모델 인 Llama를 기반으로합니다.” 모델을 개발하기 위해 그의 팀은 카자흐스탄의 문화와 역사에 대한 추가 정보로 그것을 미세 조정했습니다.
Kassenova는 Kazllm과 Sherkala가 주류 AI 모델과 경쟁하도록 설계되지 않고 오히려 더 포괄 성을 제공한다고 주장합니다. “Chatgpt, Gemini 및 Qwen과 같은 모델은 대규모 리소스, 끝없는 다국어 데이터 세트 및 최첨단 컴퓨팅 능력으로 구축되어 일반 인텔리전스를 목표로합니다.”라고 그녀는 말했습니다. 대조적으로, Kazakh LLM은 비교적 소규모 팀 (및 비교적 적은 예산)에서 제작하여 Kazakh 스피커가 우리의 언어와 문화적 맥락에 맞게 AI 도구를 갖도록 보장했습니다. “
AI 인프라 구축
카자흐스탄의 AI 야망은 언어 모델을 넘어 확장됩니다. 전략의 또 다른 판자는 국가 슈퍼 컴퓨터의 창설과 관련이 있습니다.
Kassenova는“(이것은) AI 개발의 핵심이 될 것입니다. “이 나라는 오랫동안 러시아 컴퓨팅 시스템에 의존 해 왔지만 러시아가 자체 AI 칩 부족에 직면하여 선택 사항이 아닙니다.”
정부는 또 다른 UAE 회사 인 Presight.ai와 파트너십을 맺고 슈퍼 컴퓨터를 건설했습니다. 그러나 미국 수출 제한으로 인해 고성능 NVIDIA 칩을 인수하는 데 따른 지연은 작년에 완료 될 예정인 프로젝트의 진전이 둔화되었습니다. 이 nvidia immbargo는 회사가 통제하면서 상당한 병목 현상을 일으켰습니다. 80 % AI 칩의 글로벌 시장.
Wiggins는 Kazakhstan이 도움을 요청하기 위해 동쪽으로 돌릴 수 있다고 제안합니다. “중국의 화웨이는 아직 좋지 않은 GPU를 만들었지 만 충분히 좋다”고 그는 최근에 언급했다. 긍정적 인 성능 Huawei Ascend 910 C 칩은 Nvidia의 간격을 닫기 시작했습니다.
AI 생태계를 구축하려면 인프라뿐만 아니라 인적 자본이 필요합니다. 2024 년에 카자흐스탄이 시작되었습니다 소개하다 미국의 모든 대학의 AI 문해력 과정. Astana Hub Technopark는 또한 연례 프로젝트를 시작했습니다. 기차 47 개 국립 대학교에서 700 명의 AI 교사.
Astana는 또한 지역 AI 허브가되는 것을 상상합니다. 설립 계획이 진행 중입니다 국제 AI 센터 2025 년에 글로벌 연구 협력 및 투자를 유치하기 위해 고안된 조치.
말 전에 카트
그러나 AI에서 백만 명이 훈련 될 것이라고 발표하는 것은 사람들이 러시아어 동등 물질에 대한 Sherkala를 사용하도록 설득하는 것처럼 교육을 받도록 설득하는 것과 다릅니다. Kazakhstan은 이전에 여기에 있었으며 조기에 모든 것에 대한 글로벌 허브를 선포했습니다. 기호 논리학 에게 종교.
또 다른 문제는 개방성입니다. 대형 언어 모델은 엄청난 양의 정확하고 포괄적 인 정보로 번성합니다.
중국과 같이 불투명성을 향한 경향이있는 정부는 국가 지원, 대규모 데이터 및 기업 조정에 대한 고도로 통제 된 하향식 접근 방식이 진행될 수 있음을 보여 주었지만 Kazakhstan은 해당 모델을 모방 할 자원이 없을 수 있습니다.
더 저렴한 접근 방식은 특히 카자흐어 소스의 상대적 부족을 고려할 때 개방적이고 데이터에 쉽게 접근 할 수있는 환경입니다. 그러나 국경이없는 기자들과 함께 180 명 중 142 위를 차지했습니다. 2024 World Press Freedom Index이것은 우선 순위가 아닌 것 같습니다.
모든 그랜드 디자인의 경우, Astana의 Iron Grip on Information은 결국 국가를 막을 수 있습니다.
Kazllm의 제작자 인 Issai는 의견 요청에 응답하지 않았습니다.
presight.ai는 논평을 거부했으며, 질문은 정부에 대한 질문을 제안했다.
정부의 디지털 개발부는 논평 할 수 없었습니다.