본문 바로가기

공부 자료/머신러닝2

파이썬으로 CSV 파일 합치기 (병합, pandas 활용)

제가 하고 있는 머신러닝과 관련된 연구에 있어서 특정 실험조건을 세팅하고 실험을 돌리면 accuracy 값들이 csv 파일로 생성됩니다. 머신러닝 특성상 동일조건의 실험에도 불구하고 accuracy가 다소 들쑥날쑥하기 때문에 보다 정밀한 값을 구하기 위하여 동일 조건으로 실험을 반복하여 평균값을 구할 필요가 있습니다. 코딩 초짜인 저는 이 상황에서 각각의 csv 파일을 열고, copy & paste 방식으로 값을 옮겨서 한곳에 모은 뒤 average 값을 구하는 정말 무식한 노가다 방식으로 연구하고 있었습니다. '실험 조금만 하면 되는데, 굳이 이런걸 위해 코드를 짜야하나? 공부하고 코드작성 하는데 시간이 더 걸릴것 같다'고 변명하며 연구한지가 4~5개월이 되었고, 계속된 노가다 방식에 지쳐 안되겠다 싶.. 공부 자료/머신러닝 2021. 8. 19.

[python/머신러닝] random seed local로 적용하기

머신러닝 시뮬레이션을 하려고 할때, 매번의 새로운 실행마다 랜덤하게 추출되는 변수를 고정하려고 하면 어떻게 해야될까? 예를 들어, 분산학습이나 연합학습의 상황을 가정하자. 실험 초기에는 각 디바이스에게 데이터를 분배하는 과정이 필요한데 데이터 분배의 랜덤성으로 발생되는 변동성을 제외하기 위해 매 실험마다 데이터를 동일하게 분배하고 싶다면? 처음에 단순히 생각한것은 아래와 같이 random 함수에 seed를 부여하는 것이었다. 하지만, 위와 같이 일반적인 방법으로 랜덤시드를 주면 특정 클래스나 특정 부분에만 적용되는 것이 아니고 작성한 코드의 모든 랜덤함수에 시드값이 적용된다. 처음의 의도와는 다르게 똑같은 실험 결과를 내뿜으면서 무의미한 결과들이 저장된다. 즉 랜덤 시드는 글로벌하게 적용되는 특성이 있다.. 공부 자료/머신러닝 2021. 4. 22.

이전 1 다음

티스토리툴바