배웠던 내용을 기반으로 match3 인공지능으로 플레이 하는 걸 ... - 인프런

match3 게임을 agent가 플레이 하게 하려는 목적으로 시작 했습니다.

과거 match3 게임 개발해 논게 있어서 AbstractBoard 못쓰고 agent 학습 작업을 하였습니다.

mlagent Release 21 버젼을 사용했습니다.

먼저 퍼즐판은 8*7이고 블럭은 5색깔을 사용한다고 정의 했습니다.

public class Match3MLAgentsBoard : Agent 클레스를 정의 하고

유니티 mlagnet match3 샘플을 참고해서 8*7 퍼즐판을 색깔별로 있으면 1 없으면 0을 넣는 소스 입니다.

public override void CollectObservations(VectorSensor sensor)
{
    MapBoardData mapBoardData = gameMain.IngameData.CurBoardData;
    MapData mapData = gameMain.IngameData.MapData;
   
    int oneHotSize = 5;
    for (int y = 0; y < mapData.BoardColumns; y++)
    {
        for (int x = 0; x < mapData.BoardRows; x++)
        {
            SlotTile slotTile = mapBoardData.GetSlotTile(x, y);
            var type = slotTile.ColorBlock.BlockColorType;
            for (var i = 0; i < oneHotSize; i++)
            {
                sensor.AddObservation((i == (int)type) ? 1.0f : 0.0f);
            }
        }
    }
}

유니티 mlagnet match3 샘플을 참고해서 agent가 받는 소스를 만들었습니다.

public override void OnActionReceived(ActionBuffers actionBuffers)
{
    int aiIndex = actionBuffers.DiscreteActions[0];
    MapBoardData mapBoardData = gameMain.IngameData.CurBoardData;
    var touchSlotIndex = (SharedInt)gameMain.behavior.GetVariable("touchSlotIndex");
    var targetSlotIndex = (SharedInt)gameMain.behavior.GetVariable("targetSlotIndex");

    int BoardRows = gameMain.IngameData.MapData.BoardRows;
    int BoardColumns = gameMain.IngameData.MapData.BoardColumns;

    int row, col;
    if (aiIndex < (BoardColumns - 1) * BoardRows)
    {
        col = aiIndex % (BoardColumns - 1);
        row = aiIndex / (BoardColumns - 1);

        int _Index = GetIndex(col, row);
        touchSlotIndex.SetValue(_Index);

        int _tarIndex = GetIndex(col + 1, row);
        targetSlotIndex.SetValue(_tarIndex);

    }
    else
    {
        var offset = aiIndex - (BoardColumns - 1) * BoardRows;
        col = offset % BoardColumns;
        row = offset / BoardColumns;


        int _Index = GetIndex(col, row);
        touchSlotIndex.SetValue(_Index);

        int _tarIndex = GetIndex(col, row + 1);
        targetSlotIndex.SetValue(_tarIndex);
    }
    Debug.Log("###OnActionReceived - end");
}

보상은 매칭되는 블럭이 수 만큼 보상을 주도록 했습니다. 3개 매칭 되면 0.3점 4개가 매칭 되면 0.4점 이런식으로요.

match3MLAgentsBoard = gameObject.GetComponent<Match3MLAgentsBoard>();
foreach (DamageObject damageObject in gameMain.IngameData.DamageList)
{
    foreach (var baseObject in damageObject.BaseObjectBlocks)
    {
        gameMain.IngameData.mReward += 0.1f;
        rewardSum += 0.1f;
    }
}

match3MLAgentsBoard.AddReward(rewardSum);

Behavior Paremeters 세팅 입니다.

Behavior Paremeters 설정_기본.png

8*7*5=280

8*(7-1) +7*(8-1) =97 해서 나온 값을 넣어 줬습니다.(유니티 셈플 계산법)

mlagents-learn "C:\Users\TT\Desktop\ml-agents-release_21\config\ppo\Match3.yaml" --env=C:\MyProject\MatchPuzzle\Client\trunk\MatchPuzzle\run\MatchPuzzle.exe --run-id=InGameMain --force --no-graphics

하고 나니

이렇게 나오고 학습이 안되었습니다..

그래서 mlagent match3 샘플을 보니.

Match3SensorComponent

Match3ActuatorComponent

있다는걸 찾았고

Match3SensorComponent에 Write(ObservationWriter writer) 부분과 Match3ActuatorComponent의 OnActionReceived(ActionBuffers actions)부분을 흉내 내어 Component을 만들고

Match3MLAgentsBoard CollectObservations 함수와 OnActionReceived함수는 주석을 쳤습니다.

그리고 실행

mlagents-learn "C:\Users\TT\Desktop\ml-agents-release_21\config\ppo\Match3.yaml" --env=C:\MyProject\MatchPuzzle\Client\trunk\MatchPuzzle\run\MatchPuzzle.exe --run-id=PuzzleMatch3Sencor --force --no-graphics

여전히 학습이 안되여서.. 유니티 mlagent가 제공하는 match3 샘플을 돌려 보기로 했습니다.

mlagents-learn "C:\Users\TT\Desktop\ml-agents-release_21\config\ppo\Match3.yaml" --env=C:\Users\yree1\Desktop\ml-agents-release_21\Project\Match3Run\UnityEnvironment.exe --run-id=UnityMatch3Data --force --no-graphics

스크린샷 2024-07-16 235146.png

샘플도 딱히 학습이 된다고 보기 어려워서.. 혹시 너무 짧아서 학습이 제대로 안되었다고 생각되어 더 길게 학습을 하였습니다.

스크린샷 2024-07-17 015623.png

여전히 학습이 제대로 안되는거 같아서 mlagnet 셋팅 환경이 문제일지 몰라서 3dball 프로젝트를 돌려 봤습니다.

mlagents-learn "C:\Users\TT\Desktop\ml-agents-release_21\config\ppo\3DBall.yaml" --env=C:\Users\yree1\Desktop\ml-agents-release_21\Project\3DBallRun\UnityEnvironment.exe --run-id=3DBallData --force --no-graphics

스크린샷 2024-07-16 235415.png 엄청 학습이 잘됩니다.

스크린샷 2024-07-16 235711.png 3dball만 잘 학습 됩니다..

혹시나 싶어서 Release 20에서도 학습을 진행 했지만.. 결과는 똑같이 제대로 학습 되지 않았습니다.

제일 궁금한건 왜 match3 agent가 잘 학습을 못하는지 굼금합니다..

제가 만든건 왜 학습이 안되는지..궁금 하지만 더 궁금한건.. 유니티에서 제공하는 match3은 문제가 없을텐데.. 제가 뭔가 명령어 옵션이나.. 등등을 놓친게 있을까요?? 정말 아무것도 손 안되고 Release 21압축 풀고 바로 돌린건데요.

그 외에 몇까지 궁금한게 있습니다.

학습을 시키면 어느Step까지 기다리고 학습을 평가 해야 되는지..아까보여 드렸든 match3 보상 값은 올라 갔다 내려갔다 계속 값이 왔다 갔다만 있습니다.. 이걸 계속 기다리다보면 언젠가 학습을 잘하게 되는지..값이 계속 왔다 갔다 거리면 그만 해야 되는지..학습이 실패 했다고 정확하게 아는 방법이 있나요?
유니티 mlagent가 제공하는 match3은 왜 Agent을 상속 받아 CollectObservations,OnActionReceived함수를 정의 안하고.. Match3SensorComponent,Match3ActuatorComponent 만들어서 학습을 진행 했는지 궁금합니다.
match3 센서값 엑터값을 위에 적은 방법이 아닌 다른 방식으로 많이 셋팅 해봤습니다. 그러나 제대로 학습 되는 경우가 없었습니다.. 인공지능 ppo 알고리즘이 제대로 된 결과값을 얻을 수 있는 팁이나 약간의 규칙(이렇게 하면 조금 잘된다..) 이런게 있을까요?
Match3.yaml 파일만 유일하게 learning_rate_schedule: constant을 쓰고 있습니다. 나머지 파일은 전부 learning_rate_schedule: linear 쓰고 있습니다. constant,linear 차이가 뭔가요?? constant을 linear 로 바꾸고 학습 했지만.. 결과는 여전히 학습 되지 않았습니다.
파이썬으로 ppo 구현해서 유니티랑 연동하면 왜 학습을 잘 못하는지.. 어떻게 하면 잘 할수 있는지.. 등등이 도움이 될만한 것들이 있을까요? 기존 유니티가 제공하는 ppo를 쓰지 않고 python으로 제작해서 작업 하면 어떤 이득이 있을까요?
match3 게임 말고 다른 게임에 mlagent를 적용하고 싶은데요.. match3 같은 색깔 블럭이면 게속 연결 가능한 게임 입니다. 프렌츠타워 라는게 임이 가장 유명합니다. 사진첨부 합니다.

스크린샷 2024-07-17 004458.png

위에 게임처럼 연결 할 수 있는 블럭이 3개 ,4개 5개일수도 8*7이라면 56개 일수도 있는 상황은 Behavior Paremeters 세팅은 어떻게 하나요? 8*7퍼즐판이라면 discrete branches 56이되고 Branch 0~Branch 55까지 다 55값을 넣어서는 학습이 잘 안됩다.. 이걸 어떻게 해야 될지.. 전혀 몰르겠습니다.

긴글 읽어주셔서 감사합니다.. 수업 내용과 직접적인 관련이 없는 내용을 질문해서 죄송합니다. 하지만 여기 말고는 물어볼 곳이 없어서.. 이렇게 글 남기게 되었습니다. 감사합니다.

인프런 커뮤니티 질문&답변

배웠던 내용을 기반으로 match3 인공지능으로 플레이 하는 걸 만들고 있는데.. 질문이 있습니다.