오랜만입니다.
별 건 없습니다. 그냥 요새 ai 가지고 이것 저것 해보는데,
이 친구한테 문서 주고 읽히는데 좋은 툴 찾아서 공유합니다.
그럼 짧고 굵게 ㄱㄱ
https://github.com/microsoft/markitdown
GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
Python tool for converting files and office documents to Markdown. - microsoft/markitdown
github.com
ai한테 문서 읽으라고 했다가 말 안듣는 경우가 많아서 찾아보니...
마크다운(.md)형식으로 넣어주면 잘 읽는다 카더라...
기계가 읽기 편한 양식이라고 함.
암튼 그래서 오늘은 ai를 위해 일반 pdf나 그런 문서를 마크다운으로 바꿔줄 수 있는 툴을 갖고와봄.
마소에서 만들었음.
위에 깃헙 링크에서 바로 받아도 되는데
GUI는 따로 없는 거 같음.
일단 pip에서 설치하는거랑
비슷한데 npm에서 설치하는 방식이 있음;;
npm버전은 뭔가 운용되는 게 다르니 그냥 파이썬 깔고 pip로 받으십쇼 다들.
노드 쓰시는 분들은 ai한테 한번 물어보시고 하세요;
파이썬 있는 분들은 (1)부터 진행하시고,
파없이신 분들은 파이썬 설치부터 ㄱㄱ합시다.
맥은 기본적으로 파이썬 깔려있으니 그냥 python3 해서 설치 및 진행 하시면 되겠습니다.
(0)python 설치
-1)파이썬 홈페이지에서 파이썬 인스톨
https://www.python.org/downloads/
Download Python
The official home of the Python Programming Language
www.python.org
(윈도우기준)
-2)터미널에서 py --version입력 테스트
-3)터미널에서 python --version입력 테스트
-4)py는 되고 python 명령어에서 마소 스토어로 연결되면
윈도우버튼 - 설정 - 앱 - 고급 앱 설정 - 앱 실행 별칭 - 앱 설치 관리자 파이썬 두 개 끄기
-5)파이썬 환경변수 등록
윈도우 + s -> 시스템 환경 변수 편집 -> 환경 변수 -> 위쪽 메뉴에서 path고르고 편집
새로 만들기 ->
C:\Users\OOOO\AppData\Local\Programs\Python\Python313\
C:\Users\OOOO\AppData\Local\Programs\Python\Python313\Scripts\
두 개 추가 후 확인
-6) 터미널에서 python --version입력 테스트 후 파이썬 버전이 정상 출력되면 설치 된 것
(0-1)pip설치
-1) pip --version으로 패키지 매니저 존재 여부 확인
-2) 웬만하면 파이썬이랑 같이 설치됨
-3) 없으면
py -m ensurepip --upgrade
(1)markitdown 설치
pip install -e 'packages/markitdown[all]'
(2)파일 변환
-터미널을 관리자 권한으로 실행해서 변환시킬 파일이 있는 폴더로 진입.
*폴더에서 우클릭 터미널 열기하면 파일 접근 권한이 적어서 그런지 빈 md파일이 생김.
그래서 관리자 권한으로 진입해야 함.
폴더 접근은 cd 치고 탭으로 이동하거나, 그냥 폴더 링크 복사해서 우클릭하면 붙여넣어짐.
markitdown 파일명.docx > 변환될 파일명.md
위 명령어 넣어주면 같은 폴더에 변환됨 끝.
*잘 모르겠거나 잘 안된다면 ai한테 물어보면 된다.
-윈도우 환경에서 pip로 markitdown 설치하는 과정을 자세하게 단계별로 설명해줘
자 이제 .md로 변환된 파일을 ai한테 밀어넣고 말해보자.
-이 파일을 기억해서 내 요청에 대답해줘
-주어진 텍스트에서 "OOO"이라는 키워드를 찾고, 그 뒤에 오는 값을 추출해줘.
예를들어 OOO 뒤에 나오는 값은 AAA,BBB,CCC,DDD 같이 쉼표로 구분 된 여러 값이야.
추출된 값을 OOO:AAA,BBB,CCC,DDD 형태로 출력하는데,
모든 값을 찾아서 표 형태로 만들어줘.
ai 좀 아는 사람은 다 알겠지만, 예시 답변 형태를 알려주면 정확도 높아짐~
그럼 이만~