Scientific Reports 13권, 기사 번호: 1126(2023) 이 기사 인용
1906년 액세스
11 알트메트릭
측정항목 세부정보
현실 세계에서 목표 달성을 위한 일련의 결정을 내리는 것은 종종 직접적으로 인지할 수 없는 환경 측면을 학습하는 능력에 달려 있습니다. 이러한 소위 잠재 기능을 학습하려면 이에 대한 정보를 찾아야 합니다. 잠재 특성 학습을 연구하려는 이전의 노력은 종종 단일 결정을 사용하고 특성을 거의 사용하지 않았으며 보상 추구와 정보 추구를 구별하지 못했습니다. 이를 극복하기 위해 우리는 인간과 원숭이가 그리드에 숨겨진 모양을 검색하기 위해 일련의 선택을 하는 작업을 설계했습니다. 우리의 작업에서는 모양의 일부를 발견함으로써 얻을 수 있는 보상 및 정보 결과의 효과를 풀 수 있습니다. 두 종의 구성원은 모양을 능숙하게 학습했으며 이전에 보상을 받은 타일보다 더 일찍 유익할 것으로 예상되는 타일을 선택하는 것을 선호했으며 결과가 평균 정보 결과 아래로 떨어질 때까지 그리드의 일부를 검색했습니다. 이는 수렵 행동과 일치하는 패턴입니다. 또한 인간이 모양을 얼마나 빨리 학습했는지는 선택 순서가 수렵 패턴과 얼마나 잘 일치하는지에 따라 예측되었으며, 이는 수렵과 학습 사이의 예상치 못한 연관성을 드러냈습니다. 정보에 대한 이러한 적응형 검색은 장기적으로 목표 지향적 행동을 지원하기 위해 잠재 기능을 학습하는 인간과 원숭이의 능력의 기초가 될 수 있습니다.
모든 동물은 관찰을 통해 추론해야 하는 환경의 잠재 특성을 배워야 합니다. 심리학 및 관련 분야의 많은 연구에서는 동물이 특징과 보상 간의 연관성을 어떻게 학습할 수 있는지 조사합니다. 환경에서 인지할 수 있는 특징은 개인의 선택 결과에 의해 관찰되고 직접적으로 강화될 수 있지만, 환경의 잠재된 특징은 그렇게 쉽게 강화될 수 없습니다. 먼저 학습되어야 합니다1,2,3,4,5,6,7,8, 9,10. 이러한 잠재 기능은 자극, 행동, 시간, 공간 및 기분이나 인지 상태와 같은 유기체 내부의 다양한 변수에 걸쳐 환경 내 상황의 통계적 구조를 포착하는 경우가 많습니다11. 많은 맥락에는 과일의 익은 정도를 결정하는 것과 같은 일상적인 것부터 관찰 가능한 색상, 냄새 또는 부드러움12의 잠재 특징부터 과일을 물리치는 방법과 같은 난해한 것까지 관찰 가능한 것을 바탕으로 잠재 특징을 학습하는 것이 포함됩니다. 플레이어가 다양한 버튼 누름 순서와 관찰 가능한 결과를 통해 각 레벨의 구조, 잠재 기능을 배워야 하는 비디오 게임입니다13. 인지의 여러 측면과의 관련성에도 불구하고 인간과 다른 동물이 이러한 잠재 기능을 학습하는 방법은 최근에야 심리학과 신경과학 연구의 초점이 되었습니다.
잠재된 특징은 선택의 결과로부터 학습되는 경우가 많습니다. 잠재 기능에 대한 결과 기반 학습은 일반적으로 행동을 강화하는 데 사용할 수 있는 피드백을 제공하기 위해 음식이나 물과 같은 보상을 사용하여 연구됩니다14,15,16. 그러나 현실 세계에서는 많은 행동이 일시적으로 보상을 받지 못하더라도 여전히 학습이 이루어집니다17. 최근 보상에만 집중하면 학습을 완전히 포착하지 못합니다. 보상 외에도 선택의 결과는 정보를 제공하며, 여기서는 관찰 가능한 특징이나 환경에 나타나는 원인의 확률 변화로 이해됩니다. 이 정보는 학습에도 사용될 수 있습니다. 특히 정보 획득은 잠재 기능을 식별하는 데 도움이 될 수 있습니다. 잠재된 특징에 대한 지식은 장기적으로 보상을 얻고 혐오적인 결과를 피하기 위한 효율적인 전략을 개발하고 적용하는 데 중요할 수 있으므로 정보에 대한 탐구 자체가 행동에 대한 동기를 부여하는 힘이 될 수 있습니다.
정보 추구는 종종 보상 추구와 균형을 이루어야 합니다. 그러한 보상-정보 절충의 예는 인간과 동물 환경에서 만연합니다. 예를 들어, 긴꼬리원숭이는 때때로 관찰 가능한 보상을 먹기 위해 관찰 가능한 보상을 먹기 위해 돌아오기 전에 먼저 숨겨진 보상을 찾아 소비하기 위해 관찰 가능한 보상을 먹지 않습니다18. 인간은 환경에 대한 인식론적 불확실성을 반영하기 위해 선택을 변경할 것이며, 예상 보상이 더 적더라도 해당 정보를 사용하여 추가 선택을 할 수 있는 기회가 있다는 것을 알 때 정보를 제공할 옵션을 선택합니다. 결과적으로 보상이나 정보의 결과가 학습에 어떤 영향을 미치는지 이해하는 것은 많은 환경의 복잡하고 복잡한 상황에서 학습이 어떻게 진행되는지 이해하는 데 중요합니다.
0, all p's < 1 × 10–6; βmean = − 0.0071 ± 0.0044, t(df = 4) = − 1.6173, p > 0.1). We view this variability in monkey behavior as a boon for future investigation of the neural circuits underlying this learning. Humans showed quicker convergence to optimal numbers of choices by at least an order of magnitude (Fig. 2C; mean across shapes and subjects: β = − 0.2673 ± 0.0722, Student's t-test: t(df = 4) = − 3.7025, p < 0.05)./p> 0.3, ρ = 0.1545, not shown). During learning, human information forager scores (mean forager score FS = 0.67 ± 0.016) were not significantly different from M1 (one-sample t-test; M1 = 0.67; t(df = 38) = 0.36, p > 0.7) and marginally different from M2 (one-sample t-test; M2 = 0.70; t(df = 38) = − 1.90, p > 0.05). After learning, humans (mean FS = 0.56 ± 0.042) had significantly lower information foraging scores than both monkeys (one-sample t-tests; M1 = 0.72, t(df = 37) = − 3.82, p < 5 × 10–4; M2 = 0.72, t(df = 37) = − 3.84, p < 5 × 10–4). Further, humans foraged for information significantly more during learning compared to after shapes had been learned (Student's t-test, t(df = 75) = 2.63, p < 0.05) whereas monkeys marginally increased (M1: 0.67 during learning, 0.72 after; M2: 0.70 during, 0.72 after). Human reward forager scores during learning (mean forager score FS = 0.3233 ± 0.0115) were significantly lower than after learning (mean forager score FS = 0.3879 ± 0.0223; Student's t-test, t(df = 75) = − 2.5901, p < 0.05). Humans also showed significantly lower reward forager scores during and after learning than M1 (during learning FS = 0.4082, one-sample t-test, t(df = 38) = − 7.3662, p < 1 × 10–8; after learning FS = 0.4387, one-sample t-test, t(df = 38) = − 2.2276, p < 0.05), and no significant difference during learning but significantly higher forager score after learning than M2 (during learning FS = 0.3063, one-sample t-test, t(df = 38) = 1.4780, p > 0.1; after learning FS = 0.2765, one-sample t-test, t(df = 38) = 4.9921, p < 0.0001). In sum, better information foraging in humans predicted faster learning (as judged by their last changepoint) and humans ceased information foraging after learning./p> y is 1 if true and 0 if false. I was calculated separately for each participant by taking the average of all information outcomes during learning. We verified this finding by using a running average as well, where each of the outcomes in a sequence was compared to the average information outcome up to and including that sequence. A score of 5 perfectly matches a foraging pattern of choices (two choice outcomes prior to pre-jump above average + pre-jump outcome below average + two choice outcomes prior to pre-jump above pre-jump outcome). The forager score was computed for every sequence of three choices of neighboring tiles in sequence followed by a jump and averaged by subject. The final changepoint, which we used to quantify the end of learning, was then regressed against the average Fs (Fig. 6). As a comparison for this analysis, a similar score was constructed for rewards that used the reward outcomes following each choice in the sequences of three choices and the average reward outcomes across all choices./p>