ABC News mp3、txt下载工具

Jay@Au · 发表于 28-6-2013 13:40:41

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？FreeOZ用户注册

x

本帖最后由 Jay@AU 于 10-12-2013 22:46 编辑

快要登陆了，发现澳音有点不适应，就决定听听ABC News适应适应。发现里面只能听，不能下，不太方便。就花了一个多小时搞了个小程序。共享出来、希望能帮到需要的人。

不过我是用java写的，所以使用的话要保证机器上装了JRE/JDK。

论坛没有附件上传功能，我用网盘共享出来，地址：http://pan.baidu.com/s/1kXXdm

解压后，点击run.bat ，默认下载第二页的列表，因为发现有时第一页MP3放上去了，transcript还没完成。如果要下载其他页，用文本编辑器打开run.bat改改最后那个数字就可以了，第一页就改成1

下载完成后，所有文件放在该目录下的temp目录下。

ubuntuhk · 发表于 28-6-2013 14:00:14

有心人，赞一个。

cctt126 · 发表于 28-6-2013 16:57:21

谢谢分享！
请问下，默认下载第二页的列表，是什么意思啊？

Jay@Au · 发表于 28-6-2013 18:27:05

http://www.abc.net.au/news/audio/ 是所有的audio列表，按时间排序，新的在最前面第一页。你看那个页面下面有页码。第二页就是说下载第二页里面所有mp3和txt。

Jessie_dan · 发表于 28-6-2013 18:34:54

LZ太有心了，刚才用了一下，可以正常下载。赞！！

darrenlee · 发表于 28-6-2013 21:21:19

本帖最后由 darrenlee 于 28-6-2013 20:31 编辑

楼主想法不错

,
bat文件?

给linux下的兄弟的下载文本和音频的脚本,正好我也练习练习bash,都快忘光了.....

用法:
下载当天所有音频和文本到当前目录
bash abc.sh
下载指定日期的所有音频和文本到当前目录
bash abc.sh 2013-06-27

abc.sh

#!/bin/bash
### Author:darrenlee
### Date:2013-06-28
### Dependency:bash,grep,sed,curl
function download {
local pageurl=$1
echo " Grabbing ==> $pageurl"
local mp3url=`curl $pageurl | grep ".mp3" | cut -d "'" -f 4`
local txturl=`echo $mp3url | cut -d "/" -f 8 | cut -d "." -f 1`.txt
curl $pageurl | sed -n "/<div\ class\=\"media-transcript\">/,/<\/div>/p" | sed 's/<p>//g' | sed "s/<\/p>/\n/g" | sed "s/<div\ class\=\"media-transcript\">//g" | sed 's/<\/div>//g' > ./$txturl
curl -O $mp3url
}
if [ -z "$1" ]; then
newsdate=`date +%Y-%m-%d`
else
newsdate=$1
fi
page=1
has=true
start=false
while $has
do
echo "Grabbing ==> http://www.abc.net.au/news/audio/?page=$page"
readarray LISTS < <(curl "http://www.abc.net.au/news/audio/?page=$page" | grep "/news/$newsdate")
page=$((page+1))
for item in "${LISTS[@]}"
do
download "http://www.abc.net.au"`echo $item | cut -d '"' -f 2`
done
if [ ${#LISTS[@]} != 0 ]; then
start=true
else
if $start ; then
has=false
fi
fi
done

复制代码

Jay@Au · 发表于 3-7-2013 00:56:59

darrenlee 发表于 28-6-2013 20:21

登录/注册后可看大图

楼主想法不错,
bat文件?

写得很简洁，不错

austone · 发表于 4-7-2013 11:55:26

很好用，谢谢楼主

cctt126 · 发表于 9-12-2013 10:43:47

好像不能下载mp3了，楼主更新下啊！

izhwei · 发表于 9-12-2013 12:43:55

http://www.abc.net.au/am/archives.html?year=2013 这里可以直接下载啊。

cctt126 · 发表于 9-12-2013 16:15:24

izhwei 发表于 9-12-2013 12:43

登录/注册后可看大图

http://www.abc.net.au/am/archives.html?year=2013 这里可以直接下载啊。

谢谢，我试了下，要一个一个点击保存mp3和文字，有没有更方便的批量下载方法？

Jay@Au · 发表于 10-12-2013 22:47:36

cctt126 发表于 9-12-2013 10:43

登录/注册后可看大图

好像不能下载mp3了，楼主更新下啊！

ABC改版了。更新了，点击上面链接重新下载。

Lopemann · 发表于 10-12-2013 23:51:22

技术牛人呀

Jay@Au · 发表于 12-12-2013 20:52:03

Lopemann 发表于 10-12-2013 23:51

登录/注册后可看大图

技术牛人呀

其实很简单很简单。这种枯燥的重复劳动用这种简单的方法也能省点时间和体力了。

iamOk · 发表于 15-12-2013 01:37:28

本帖最后由 iamOk 于 15-12-2013 18:02 编辑

挺有意思的，这两天在学python, 也写了个完成同样功能的，装了python的可以直接用来，没有装的可以先装一个python.

#copyright, IamOk@freeOZ
from xml.dom import minidom;
import re;
import urllib2;
import os;
from HTMLParser import HTMLParser
xmlurl="http://www.abc.net.au/news/feed/54536/rss.xml";
prefix="download/";
class MP3Parser(HTMLParser):
inscript=0;
scriptname=0;
def handle_starttag(self, tag, attrs):
if(tag=='script'):
self.inscript=1;
if( tag=='div'):
for name, value in attrs:
if name == 'class' and re.search('media-transcript', value):
self.inscript=3;
def handle_endtag(self, tag):
if(tag=='script' or tag=='div'):
self.inscript=2;
def handle_data(self, data):
if(self.inscript==1):
cline=data.split(',');
for csource in cline:
mp3=re.search('\.mp3', csource);
if mp3:
tmps= csource.split()[1][1:][:-1];
filename=prefix+tmps.split('/')[-1];
self.scriptname=filename+'.txt';
if os.path.isfile(filename):
self.scriptname=0;
break;
else:
print "downloading "+tmps;
try:
mymp3=urllib2.urlopen(tmps);
mp3file = mymp3.read();
fo = open(filename, "wb");
fo.write(mp3file);
fo.close();
except ValueError:
break;
if(self.inscript==3 and self.scriptname!=0 ):
fs = open(self.scriptname, "a");
fs.write(data);
fs.close();
# instantiate the parser and fed it some HTML
parser = MP3Parser()
myurl=urllib2.urlopen(xmlurl);
html = myurl.read();
fo = open("result.xml", "w");
fo.write(html);
fo.close();
xmldoc = minidom.parse('result.xml')
if not os.path.exists(prefix):
os.makedirs(prefix);
for node in xmldoc.getElementsByTagName('link'):
mylink= node.childNodes[0].nodeValue;
if(re.findall('[0-9]', mylink)):
print("opening "+ mylink);
myurl=urllib2.urlopen(mylink);
html = myurl.read();
parser.feed(html);
print("processing next link\r\n");

复制代码

		自动登录	找回密码
密码			FreeOZ用户注册

FreeOZ

[学习深造] ABC News mp3、txt下载工具

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

评分

浏览过的版块