3억 명의 학생, 3억 명의 통찰력 – 교육 데이터와 사랑에 빠지다

게시 됨: 2016-04-07

Embibe의 데이터 과학 연구소 독점 내부 보기

[교육을 개인화하기 위해 Deep Tech 및 Data Science를 사용하는 방법 시리즈의 두 번째 부분입니다.]

우리는 단일 비전으로 Embibe를 구축했습니다. 즉, 대규모 학습 결과를 극대화하는 것입니다. 사용자의 학습 결과에 긍정적인 영향을 미치는 것은 어렵지만 해결해야 할 중요한 문제입니다. 사실, 의도적이고 긍정적인 영향을 미치는 학습 결과라는 숭고한 목표를 실현하기 위해 해결해야 하는 사소하지 않은 공개 하위 문제가 많이 있습니다.

그러나 먼저, 학습 결과는 무엇입니까? 그리고 왜 우리가 그들에게 관심을 갖는가?

오늘날과 같이 경쟁이 치열한 세상에서 학생은 경쟁 시험이나 학교 교실에서 얼마나 많은 점수를 얻을 수 있는지에 따라 크게 평가됩니다. 그녀의 점수는 그녀의 경력 옵션에 상당한 영향을 미칠 수 있습니다. 이 기사의 목적을 위해 엄격하게 지정된 시간 제한 내에서 콘텐츠 자료를 최적으로 배우고 흡수하고 적용하기 위해 학생의 타고난 잠재력과 훈련 가능한 잠재력의 함수로 학습 결과를 구성합시다. 특정 경쟁적 학문적 맥락에서 자신의 점수를 최대화할 수 있도록 합니다.

인도와 같은 개발 도상국에서는 학생 대 교사 비율이 매우 왜곡되어 교사가 개별 수준에서 개인화된 관심을 효과적으로 제공할 수 없습니다. 이는 각 학생이 정보를 배우고 흡수하는 속도가 다르고 적성 수준이 다르기 때문에 딜레마로 이어집니다. 교사가 개별화된 관심을 제공하지 못하는 것으로 알려진 부작용은 주어진 교실/학생 그룹에 대해 학습 자료가 항상 "보통" 학생을 수용하기 위해 제공된다는 것입니다. 따라서 매우 영리한 학생은 자신의 잠재력을 최대한 발휘하지 못하고 학업 능력을 진정으로 발휘할 수 없으며 학업이 약한 학생은 나머지 교실에 대처하는 데 어려움을 겪습니다. 그러나 기존의 온라인 학습 플랫폼과 시스템은 학생 수준의 개인화 학습을 진정으로 촉진할 수 없습니다.

대부분의 현재 시스템은 시스템 관리자가 지정한 대로 학생이 솔루션을 테스트 모듈과 얼마나 잘 일치시킬 수 있는지에 대해서만 설명합니다. 경쟁 시험을 위한 맞춤형 학습은 제한된 시간 내에 모든 학업 목표에 대한 학생의 점수를 극대화해야 합니다. 개인화된 학습은 또한 지식이나 적성 수준뿐만 아니라 태도 및 행동 수준에서도 학생의 능력 격차를 건설적으로 해결해야 합니다. 각 학생을 위해 구체적이고 정확하게 맞춤화된 맞춤 학습을 위한 효과적인 도구의 부족은 그녀가 주어진 시험에서 가능한 최대 점수를 달성할 수 있는 잠재력을 실현하지 못하는 원인입니다.

이 기사에서 embibe의 데이터 과학 팀은 학습 결과, 특히 점수 향상을 극대화하기 위해 해결해야 하는 다양한 상호 연결된 데이터 관련 문제의 토대를 마련합니다. 이 문제에는 콘텐츠 수집과 콘텐츠 전달이라는 두 가지 주요 차원이 있습니다. 각 차원은 모든 데이터 과학자를 매료시키는 여러 영역에서 고유한 과제를 제시합니다.

콘텐츠 수집

콘텐츠 자동 수집

수십 개의 강의 계획서, 수천 개의 장과 개념, 수만 개의 기관과 학교로 인해 강사는 매년 수십만 개의 질문과 답변을 생성하고 사용합니다. 모든 학생이 이러한 질문의 하위 집합 또는 전체에 대한 시험 전에 지식을 테스트하고 정답 및 일반적인 실수에 대한 자세한 설명을 얻을 수 있다고 상상해 보십시오. 이를 실현하기 위해 우리는 광학 문자 인식(OCR)과 기계 학습을 활용하여 확장성이 뛰어나고 진정한 다국어가 되며 사람의 입력에 최소한으로 의존하는 자체 자동화 수집 프레임워크를 구축하고 있습니다. 재미는 여기서 그치지 않습니다. 프레임워크는 또한 작가에 구애받지 않는 방식으로 손으로 쓴 콘텐츠를 수집할 수 있으므로 이미 환상적인 질문, 답변, 개념, 설명 및 지식 저장소에 빠르게 추가할 수 있습니다.

다국어 콘텐츠 수집

개념 태깅

자, 이제 질문, 답변, 개념 및 챕터가 모두 방대한 데이터 웨어하우스에 수집되었습니다. 각 질문이나 장에 관련 개념을 수동으로 태그하거나 그 반대로 태그를 지정하는 것은 고통스러울 것입니다. 구조를 위한 데이터 과학! 텍스트 분류, 주제 모델링 및 딥 러닝의 최첨단 아이디어를 사용하여 질문, 답변 및 장에 개념에 자동으로 태그를 지정합니다.

데이터 삽입

2015년 12월, 2016년 1월 및 2016년 2월에 Embibe 사용자가 Learn 기능을 사용하여 검색한 가장 인기 있는 개념 선택.

고품질 수동 태깅 콘텐츠의 시드 세트를 포함하는 이전 데이터베이스는 언어, 어휘 및 상황에 맞는 기능을 추출하여 수집되는 모든 새로운 데이터에 대한 최첨단 텍스트 태깅 모델을 훈련하는 데 중요합니다. 시스템.

메타데이터 강화

오늘날 온라인에는 배우고 싶은 주제에 대한 풍부한 정보가 있습니다. 아이디어와 개념은 서로를 기반으로 합니다. 예를 들어, 열역학 제1법칙은 열역학 시스템의 개념과 관련이 있으며, 이는 차례로 기체의 비열 용량, 기계적 에너지 보존 및 기체가 한 일의 개념과 관련됩니다. 당사의 콘텐츠 수집 프레임워크에는 웹을 자동으로 크롤링하고 텍스트 설명, 비디오 링크, 정의, 사용자 논평, 포럼 토론과 같은 다양한 미디어로 콘텐츠에 태그를 지정하는 데이터 보강 구성 요소가 포함되어 있으며, 이 모든 작업은 저작권을 존중하고 소스 콘텐츠에 대한 소유권을 적절하게 표시합니다. . 이 풍부한 정보를 통해 관련 개념을 트리 구조로 자동 연결할 수도 있습니다. 그래프 이론, 텍스트 마이닝 및 희소 구조에 대한 레이블 전파 분야의 아이디어를 사용하여 소스 → 대상 관계를 공유하는 개념 간의 링크 및 상호 연결을 만듭니다.

fig3 - ktviz

하나 이상의 관련 개념에 연결된 수학의 아이디어 하위 집합에 대한 개념 트리의 자동화된 구축

유사한 질문 클러스터링

시험을 준비하고 있다면 같은 문제를 반복해서 연습하고 싶습니까? 도움이 되지 않을 것입니다. 반대로, 어떤 새로운 개념이나 장을 완전히 숙달하는 데 도움이 될 몇 가지 관련 질문을 연습하는 것이 얼마나 유용한지 상상해 보십시오. 수십만 개의 질문에 대한 액세스를 통해 콘텐츠 대상, 개념 테스트, 난이도, 시험 목표 등 다양한 차원에서 유사성을 기반으로 질문을 클러스터링하는 기능을 개발했습니다.

잠재 의미 정보 공간을 기반으로 하는 텍스트 클러스터링과 다른 범주 및 숫자 기능 공간과의 조합을 통해 Embibe를 사용하여 각 개인에게 맞춤화할 수 있는 관심 영역으로 질문의 우주를 정확하게 그룹화할 수 있습니다. 또한 개념 클러스터와 관련된 강력한 숫자 기능 공간으로 변환한 이 풍부한 텍스트 데이터 리소스를 통해 기존 데이터를 약간 교란하여 질문 공간의 잠재적으로 무한한 표현을 생성할 수 있습니다. 이전에는 볼 수 없었던 더 많은 질문이 런타임에 표시됩니다! 이를 통해 사용자에게 플랫폼에서 보낸 시간에 대한 최대 가치를 제공할 수 있습니다.

콘텐츠 전달

사용자 프로파일링

우리는 사용자가 Embibe에서 수행하는 모든 움직임을 추적합니다. 지난 3년 동안 사용자가 수행한 수백만 건의 연습 및 테스트 시도는 수천 차원의 데이터 공간에서 보정됩니다. 이는 수십억 개의 데이터 포인트 공간으로 변환되어 사용자의 행동 데이터를 심층적으로 파고 학습이 발생하는 방식과 상관관계가 있는 통찰력을 생성할 수 있습니다. 사용자가 추가로 시도할 때마다 연결된 선행 및 후속 개념과 함께 해당 시도에 태그가 지정된 개념에서 더 높은 점수를 받을 수 있는 능력을 조정합니다. 이 매우 복잡한 문제는 희소 행렬 처리, 그래프 이론의 계산 알고리즘 및 항목 응답 이론의 아이디어를 활용하여 증가하는 사용자 기반에 따라 확장되는 강력하고 적응력 있는 사용자 프로필을 구축하는 것과 관련됩니다.

fig4 - 테스트 시작

당신을 위해 추천 된:

인도 스타트업에 대한 반 영리 조항은 무엇을 의미합니까?

인도 스타트업에 대한 반 영리 조항은 무엇을 의미합니까?

Edtech Startup이 기술 향상 및 인력을 미래에 대비할 수 있도록 지원하는 방법

Edtech Startup이 인도 인력의 기술 향상 및 미래 준비를 돕는 방법...

이번 주 새로운 시대의 기술 주식: Zomato의 문제는 계속되고 EaseMyTrip은 Str...

인도 스타트업, 자금 조달을 위해 지름길 선택

인도 스타트업, 자금 조달을 위해 지름길 선택

디지털 마케팅 스타트업인 Logicserve Digital은 대체 자산 관리 회사인 Florintree Advisors로부터 INR 80 Cr을 조달했다고 합니다.

디지털 마케팅 플랫폼 Logicserve, INR 80 Cr 자금 지원, LS Dig...

Lendingtech Space에 대한 갱신된 규제 조사에 대해 경고하는 보고서

Lendingtech Space에 대한 갱신된 규제 조사에 대해 경고하는 보고서

사용자가 Embibe에서 테스트 세션을 시작하는 시간(IST의 시간)을 보여주는 흥미로운 막대 그래프. 의료(AIPMT) 사용자는 오전 10시경과 오후 3시에서 5시 사이에 급증합니다. 반면에 엔지니어링(JEE) 사용자는 오후 4시에서 8시 사이에 정점에 이르는 하루가 진행됨에 따라 세션 시작 시간이 점차 증가하는 것을 보여줍니다. JEE 학생들은 또한 AIPMT 학생들에 비해 오후 5시에서 오전 3시 사이에 더 많은 연습 세션을 지속적으로 시작합니다. 우리는 의사들이 더 엄격하다고 생각합니다!

매우 세분화된 수준에서 사용자 활동에 대한 광범위한 계측 및 측정을 통해 개별 사용자와 관련된 학습 스타일과 관련된 잠재적 선호도를 추론할 수 있습니다. 예를 들어, 특정 학생은 광범위한 텍스트 설명을 선호하는 다른 학생이나 해결된 예제 문제를 통해 단계별로 학습하는 학생에 비해 비디오 설명의 도움으로 더 잘 배우고 시험을 치를 수 있습니다. 우리는 사용자를 Dunn and Dunn Model(Dunn & Dunn 1989) 또는 Gregorc의 마인드 스타일 모델(Gregorc 1982)과 같은 학습 스타일의 잘 연구된 이론 모델에 매핑하여 실습 과정을 자동으로 조정하고 사용자가 점수 향상을 하도록 도울 수 있습니다.

사용자 코호트

코호팅은 고전적인 클러스터링 문제입니다. 사용자는 제품 기능에 대한 사용 패턴과 테스트, 실습 및 수정 세션에 대한 성능 패턴에 따라 그룹화됩니다. 각 사용자는 정적 및 시간적 측정을 포함하는 수천 개의 속성으로 구성된 고차원 기능 공간에 매핑됩니다. 시간적 측정에 대한 코호팅은 초기 활동을 기반으로 이러한 사용자에게 가능한 코호트 궤적을 할당하여 낮은 활동 및 신규 사용자를 콜드 스타트할 수 있는 기능을 제공합니다. 사용자 코호팅은 미세 적응 학습, 자동화된 피드백 생성 및 콘텐츠 추천과 같은 더 높은 수준의 심층 과학 기능에 대한 핵심 요구 사항입니다.

무화과 5 - 패싯

사용자 집단에 대한 한 가지 가능한 관점 - 장기 테스트 성능과 관련이 있습니다. 전체 테스트 점수에 따라 Achievers는 Embibe 사용자의 상위 백분위수 브래킷, Performers 다음 브래킷 및 Fighters 최종 브래킷입니다. 표시된 다양한 측면은 기능 공간을 클러스터링한 점수 개선의 다양한 측면과 관련이 있습니다. 예를 들어 Facet_A가 코호트에 따라 크게 다르지만 피드백을 다른 학습 패싯에 타겟팅하고 영향을 미침으로써 사용자를 다음 상위 코호트로 밀어넣는 것이 가능하다는 것을 알 수 있습니다.

미세 적응 학습

콘텐츠와 피드백을 한 입 크기로 전달하는 것은 온라인에서 효과적으로 학습하는 데 중요합니다. 일반적으로 사용자는 온라인에서 30분에서 1시간 동안 개념과 질문을 연습합니다. 이 짧은 시간 안에 각 세션의 효과를 극대화하는 것이 매우 중요합니다. 각 세션은 학습을 극대화하기 위한 사용자의 자산이며, 이는 한입 크기의 전략으로 가장 잘 달성됩니다. 연습 세션을 위한 우리의 마이크로 적응형 엔진은 11,000개(그리고 점점 늘어나고 있는!)의 상호 연결된 개념의 메타 속성에 대한 지식 트리와 함께 사용자 프로필 및 코호트 속성을 사용하고 질문 순서, 제공된 힌트 및 적시에 지능형 인라인 피드백은 사용자에게 정확하게 적응하여 작은 목표에 대한 학습 결과를 향상시킵니다. 콘텐츠 또는 피드백을 한 입 크기로 소비할 때마다 광범위한 개념 지식 트리에 대한 사용자의 숙련도 보정에 영향을 미칩니다. 희소 행렬 처리 기술, 항목 응답 이론 및 그래프 알고리즘은 학습의 미세 적응성을 안내합니다.

fig6-prac-v-test (1)

연습이 하나를 완벽하게 만든다는 것은 꽤 분명하지만 우리는 어쨌든 숫자를 실행하기로 결정했습니다. 위의 그림은 적응형 연습 세션에 시간을 할애한 사용자와 그렇지 않은 사용자의 연속 테스트에 대한 사용자의 평균 점수 향상을 보여줍니다. Embibe에서 연습하는 사용자는 거의 10% 테스트-온-테스트에서 그렇지 않은 사용자를 지속적으로 능가합니다.

피드백 및 추천 시스템

Embibe의 피드백 및 추천 시스템(이미 특허 출원)은 사용자의 점수 향상을 극대화하기 위한 한 가지 목적으로 설계 및 구축되었습니다. 우리는 연습 및 테스트 세션 동안 사용자의 시도에 대한 수천 개의 신호를 계측 및 해석하고 이러한 신호를 각 사용자에 대한 수천 가지 기능의 고차원 공간으로 변환합니다. 방대한 사용자 시도 기능 공간에서 통계적 패턴 마이닝을 사용하여 사용자 점수를 긍정적으로 높이는 매개변수의 순위 집합에 초점을 맞췄습니다. 이러한 매개변수는 점수 향상 피드백의 고도로 표적화된 적시 캡슐로 기계 코딩되어 사용자가 연습 세션을 계속하는 동안 사용자에게 전달됩니다. 피드백과 권장 사항은 그녀가 점수를 최대화하기 위해 채택할 수 있는 약점과 전략을 보여줍니다.

분석

위의 그림은 점수 향상을 위한 우리의 표적 적시 피드백 캡슐이 사용자가 노출될 때 학생의 성과에 영향을 미치고 일반적인 시험 응시 함정을 인식하게 되는 방법을 보여줍니다. 그림 (a)는 연속적인 테스트에 걸쳐 증가하는 완벽한 시도의 평균 횟수를 보여줍니다. 완벽한 시도는 규정된 시간 내에 올바르게 응답한 시도입니다. 그림 (b)는 연속 테스트에서 감소하는 평균 낭비 시도 횟수를 보여줍니다. 낭비된 시도는 학생이 질문에 대해 생각하는 데 더 많은 시간을 할애했을 때 잘못 대답한 시도입니다. 그리고 그림 (c)는 연속적인 테스트에서 감소하는 평균 주제-정확도-불균형을 보여줍니다. 주제 정확도 불균형은 사용자가 수행한 모든 테스트에서 모든 주제 중 가장 높은 정확도와 가장 낮은 정확도의 차이로 정의됩니다. 주제-정확도-불균형이 높다는 것은 사용자가 다른 주제에 비해 특정 주제에 대해 덜 준비되어 있음을 의미합니다.

fig8 - tot에 대한 기능

위의 그림은 피드백 시스템의 다양한 측면을 활용하는 사용자의 연속 테스트 점수 증가율을 보여줍니다. 비디오 솔루션 또는 전반적인 테스트 피드백의 형태로 당사 플랫폼의 도움을 받는 것은 특히 사용자가 더 많은 테스트를 완료함에 따라 테스트 중 테스트 점수에 긍정적인 영향을 미칩니다.

점수 향상 추정

모든 종류의 시험을 준비하는 사용자에게 점수 향상은 학습 결과에 영향을 미치는 가장 중요한 측면입니다. 우리의 풍부한 행동 데이터는 Embibe에서 테스트하는 동안과 이후에 사용자의 행동이 점수 향상에 미치는 영향을 측정함으로써 사용자의 과거 행동에서 배울 수 있는 능력을 제공합니다. 다양한 사용자 집단 사이에서 사용, 활동 및 행동 기능의 통계적 패턴에 대한 데이터 마이닝은 우리 플랫폼의 효율성에 대한 과학적 증거를 제공합니다.

fig9 - corr_feats

위의 그림은 사용자별로 구성하는 기능 공간의 하위 집합을 보여줍니다. 특징 공간과 전체 정규화된 점수에 대한 상호 상관 분석은 상대적 특징 중요도에 대한 순서를 제공합니다. 이는 경험적 우위 분석과 함께 점수 향상에 대한 기여도에 대한 각 기능의 영향을 측정할 수 있습니다. 이러한 기능 중 가장 중요한 속도의 적절한 가중치 조합을 통해 플랫폼을 사용함에 따라 적응하는 각 학생에게 잠재적인 점수 향상 척도를 정량적으로 할당할 수 있습니다.

특히 인도와 기타 개발 도상국의 교육 분야에서 지금은 흥미로운 시기입니다. 교육과 학습을 다음 단계로 끌어올리기 위해 데이터와 데이터가 제공할 수 있는 통찰력을 사용하는 데 중점을 둔 심층 과학을 적용하는 것이 시급합니다. 우리의 콘텐츠 수집 및 전달 플랫폼은 확고한 과학적 원칙에 따라 구축되고 있으며 제한된 준비 시간 범위 내에서 점수 향상의 형태로 사용자가 Embibe의 엄청난 가치를 실현하도록 돕고 있습니다. 사용자의 코호트 분류 및 행동 특성을 기반으로 사용자에게 정확하게 맞춤화된 사용자별 피드백 및 권장 사항을 활용하는 마이크로 적응형 학습 프레임워크를 통해 사용자는 Embibe에서 만족스러운 경험을 할 수 있습니다. 이는 학습 결과에 긍정적인 영향을 미치는 문제를 해결하기 위한 첫 번째 구체적인 단계입니다. 맞춤형 학습입니다.

이 게시물에서 우리는 학습 결과에 영향을 미치는 길을 따라가기 위해 해결해야 하는 다양한 하위 문제에 대해 다루었습니다. 다음 포스트에서는 Embibe에서 사용자 및 사용자의 활동과 관련된 다양한 메트릭을 측정하고 추적하는 방법에 대해 이야기하여 제품의 맥박, 성장 및 효율성을 다음과 같이 파악할 수 있습니다. 온라인 학습 목적지.

우리는 Data Science Lab에서 우리의 순위에 추가할 사악하고 똑똑한 사람들을 항상 찾고 있습니다. 가설 테스트, 회귀 실행, 거대한 행렬 인수분해, 빅 데이터에 비웃기, 맵 축소 작업 실행, 지저분한 구조화되지 않은 텍스트 위에 주제 모델 구축, 통계 패턴에 대한 노이즈 데이터 마이닝, 공개 데이터에서 산더미 같은 데이터 수집을 즐기는 경우 소스, p-값 논쟁, 신경망 및 깊은 믿음망 훈련, 파이썬과 R 간 전환, 시각화 회전, 스크립팅 쉘 등 여기에서 좋아할 것입니다!

job.<id>@embibe.com으로 이력서와 함께 라인을 보내주십시오. 여기서:

<id>는 정규 분포에 대한 확률 밀도 함수 값의 0이 아닌 처음 8자리로 구성된 숫자이며 19자리의 정밀도로 반올림됩니다.

mu는 파도바 수열의 26번째 숫자이고,

시그마는 1에서 시작하는 피보나치 수열의 17번째 숫자이고,

x는 1002번째 소수입니다.

우리 팀은 Keyur Faldu( 최고 데이터 과학자), Achint Thomas( 최고 데이터 과학자) 및 Chintan Donda(데이터 과학자)로 구성됩니다.

참고문헌

  • 학습 스타일 인벤토리 . Lawrence, KS: Price Systems.
  • 그레고르크 AF, (1982). 마인드 스타일 모델: 이론, 원리 및 적용. Maynard, MA: Gabriel Systems.

Embibe는 최근 교육 데이터 분석 분야의 선두 기업 중 하나로 시장에서 3년을 마쳤습니다. 학생들은 유료 마케팅에 대한 투자 없이 2016년 3월에만 제품에 100,000시간 이상을 보냈습니다.